入围ICRA2019最佳论文：MIT利用粗粒度地图实现自动驾驶

2024.07.13 智车科技IV

    MIT最新研究能够利用简单的GPS地图和视觉数据，模仿人类驾驶员的驾驶方式，将学到的知识应用于视障环境中的复杂计划路线，该论文入围ICRA2019最佳论文。
    真正的人工智能不是只会机械处理数据，而是要能够“智慧”地进行推理分析和决策。拥有人性化的推理能力，是自动驾驶汽车研发公司的长期追求。英特尔的Mobileye提出了一个数学模型RSS，能够将人类的一些良好习惯比如给其他汽车让路等编纂成体系，使自动驾驶汽车可以依靠“常识”来进行驾驶决策。而英伟达正在积极开发“安全力场”（Safety ForceField），这是一种行动计划堆栈中的决策策略，依靠分析实时传感器数据来监控不安全因素。
    麻省理工学院的一个科学家团队研究出一种方法——适应性端到端导航与定位（Variational End－to－End Navigation andLocalization），能够利用简单的GPS地图和视觉数据，模仿人类驾驶员的驾驶方式，将学到的知识应用于视障环境中的复杂计划路线。所谓的端到端，指的是该模型将定位、映射、物体检测、运动规划和转向控制等多个传统自动驾驶模块融合在了一起，仅凭一个导航系统和配套算法处理所有输入信息并输出驾驶指令。他们这一工作成果发表于2019年蒙特利尔机器人与自动化国际会议（ICRA2019）的一篇论文中。

    端到端模型
    学习人类驾驶习惯

    多年发展历程已经证明了开发自动驾驶能力的任务是多么困难，并且揭示了机器智能与人类之间的巨大鸿沟——不仅在灵活计算能力上不如人类，在学习解决问题方面也是如此。例如，人们在奇怪、复杂的环境中驾驶很容易，只需要一个粗略的导航地图和他们的眼睛就可以做到，而自动驾驶汽车即使在很熟悉的区域中也要依赖于非常复杂的传感器队列，依靠详细的数据进行自我定位、环境定位、对象检测、运动规划和转向控制。人类可以使用非常基本的信息应用于非常复杂的情况，需要的只是一张简单的地图，例如GPS地图，并且可以将其与他们周围的内容联系起来，依据这些相关联的信息知道自己的位置。根据具体情况，看似无关紧要的数据也可以被纳入导航——就像有人可以从伦敦特拉法加广场步行到利物浦街站，并在途中注意沿途的酒吧一样。
    这一系统与其他自动驾驶决策思路的另一区别在于，可以像人类一样专注于寻找目的地而非专注于追随某条道路。“我们的目标是实现强大的新环境下自动驾驶导航”，“例如，如果我们训练一辆自动驾驶汽车在城市环境中驾驶，例如剑桥街道，那么该系统也应该能够在树林中顺利驾驶，即使这是一个前所未有的环境。”
    MIT研发团队从以上人类驾驶习惯得到启发，并让汽车在驾驶过程中不断学习新的驾驶习惯，以习得信息辅助驾驶决策。
    视觉摄像头
    为了教授计算机人类驾驶员的知识，该团队有一名人员驾驶普通的汽车，配备几台摄像机和一台普通GPS收集有关郊区街道、道路结构和障碍物的数据。与依赖于非常复杂的机器推理和数据库的传统方法不同，MIT自动驾驶方法会从视觉线索中学习。该系统从摄像头中提取视觉信息，依靠该信息预测道路结构，比如远处的停车标志和路边的断线等。然后将视觉数据与地图数据进行关联，识别两者差异，例如，当汽车在一条不能转弯的直线道路上行驶但地图显示右转时，系统知道要一直向前行驶。MIT表示，这种预测是基于一种被称为卷积神经网络（CNN）的机器学习模型，该模型通过处理人类驾驶员在训练期间收集的图像来学习如何驾驶。以T字路口为例，原则上说行驶在道路上的汽车可以转向许多不同的方向，该模型会考虑所有方向，但随着它看到有些人向左转，有些人向右转，但没有人会直行，直行的这一方向就被排除在外，只能向左或向右移动。
    MIT自动驾驶方法还允许汽车考虑其他视觉线索，如路标、道路线和其他标记，以确定它是什么样的道路并预测什么时候会出现交叉口，以及特殊情况下如何驾驶。此外，它还可以分析街道情况，以确定不同街道的位置。通过其预测到的高概率内容与其看到的内容相匹配，再通过地图显示位置进行调整，如下图。

    粗粒度地图
    MIT方法使用的这种地图是一种只有黑色背景和白色抽象道路线条、不包含任何路边物体和标志的粗粒度地图。

有了这个系统，不需要事先在每条道路上进行训练。在一个新的道路环境中，只需要一张简略的地图，就可以自如地行驶。用激光雷达扫描得来的高精度地图信息有4000GB，而通过这种方式整个地球的地图信息存储只需要40GB。
接下来，该系统研发团队希望将其定位算法集成到整车离散道路地图匹配的在线设置中，并提供比人类驾驶更加安全可靠的定位评估，优化细节，尽快实现完善的自动驾驶技术。