特斯拉AI准备打败波士顿动力?
C次元作者
王小西
特斯拉的AI魔幻大法,“看上去很美”。
责编丨查攸吟
编辑丨任哲
看完特斯拉的AI DAY发布会,忽然反应过来,这这这,不是个大型招聘会么!
之前业内猜测的AI神经网络、FSD、自研超算Dojo,以及突如其来的人形机器人……果然放了不少“大招”。这些用来烘托下半场马斯克支支吾吾、有点不好意思的推介,“欢迎大家来特斯拉工作”的“司马昭之心”很明显啊!
要知道,2021年才半年,特斯拉就失去了4位直接向马斯克汇报的资深高管。最近的一位,是负责卡车业务的CEO杰罗姆·吉伦(Jerome Guillen)。而且,吉伦是目前马斯克最重要的副手,也是特斯拉最顶级的四大高管之一,3月才被任命。所以,特斯拉有多缺人,我们可以理解了。
不过,让记者感到好奇的是,在最后的回答提问环节,马斯克的眼神是有点飘忽的,有点心神不宁的样子。看来,被美国国家公路交通安全管理局(NHTSA)调查还是有很大影响。
就在前几天,业内还对特斯拉的“纯视觉”路线热烈讨论,再加上被调查,特斯拉的AI DAY应时而至,却也有难以言说的尴尬。而且,有意思的是,因为技术故障,发布会整整推迟了40分钟,马斯克一上来就不得不道歉。
当然,AI DAY算是特斯拉今年最重大的事件,也是继2019年4月23日的Autonomous Day、2020年9月23日的Battery Day之后,第三个以“Day”命名的技术发布会。说起来,技术含量也是最高的。
我们来看看这次的AI DAY发布了哪些新“黑科技”。
01
自动驾驶和“纯视觉”
发布会一开始,就是一段FSD(Fully Self Driving,全自动辅助驾驶系统)的VCR短视频,展示了V9.0最新的开放道路自动驾驶情形。不过,我们可以看到,全程驾驶员的手都是托着方向盘,保持着随时触碰的状态。
这也说明,特斯拉在发布FSD BETA V9.0之后,不敢玩得太嗨了。就像记者在《特斯拉纯视觉路线,能不能走通?|C次元》对其“纯视觉”路线做的质疑,这种夸大传播的恶果就是,最后引起全面的质疑和被调查。而在8月16日,特斯拉又推送了FSD Beta V9.2版本。
回过来看发布会,AI总监恩乔·卡帕西Andrej Karpathy博士首先上台,讨论了特斯拉AI 的多摄像头的自动驾驶系统。它通过八个摄像头的数据输入(1280×960 12-Bit HDR 36Hz)进单个神经网络中,整合成 3D 环境的感知,这被称为Vector Space(矢量空间)。
Karpath指出,AI可以被视为一种生物,可以从头开始构建,包括其合成视觉皮层。当特斯拉在其汽车中设计视觉皮层时,将其建模为“眼睛如何感知生物视觉”。他还回溯了特斯拉的视觉处理策略多年来是如何演变的,以及特斯拉具备多任务学习能力的“HydraNets”(神盾局的“九头蛇网络”都出来了?)。
特斯拉的自动驾驶算法是从识别单张图片的普通视觉算法开始,虽然单个摄像头的单独检测效果很棒,但这显然不够。现在的纯视觉算法“HydraNets”基于不同摄像头的视觉内容进行识别,而且训练和推断是端到端的。
在展示了一段关于特斯拉过去如何处理其图像数据,以及共享的FSD流行视频后,Karpathy指出,事实证明过去FSD的系统不够完善,这是特斯拉在推出Smart Summon时学到的东西。
Karpathy阐述了特斯拉如何从头开始重新设计他们的神经网络学习,并利用多摄像头路线,“每辆车上的八个摄像头都被输入到一个3维‘矢量空间’中。”其中包括相机的校准、缓存、队列和优化以简化所有任务。这也是迄今为止最简化的迭代方式。
Karpathy还不忘Diss了一下Super Cruise和Waymo,“今天,特斯拉的FSD战略更具凝聚力,车辆可以在行驶时有效地实时绘制地图,”他说与这些竞争对手采用的预先绘制地图的策略相比,是一个巨大的差异。
但是,就像记者在文章中批判的,没有激光雷达的加入,就像瘸了一条腿的人,特斯拉在“纯视觉”路线上是走不远的。虽然在马斯克看来,特斯拉的深度学习系统已经比毫米波雷达强100倍,现在的毫米波雷达已经开始拖后腿。
就像一位业内专家所说,“不用毫米波雷达,那也别用超声波雷达啊?!!!纯视觉,暴雨怎么办?大雾怎么办?”我们知道,特斯拉依靠的最先进的机器学习只是识别模式,这意味着它会在新情况下挣扎。一挣扎,就会产生误判。
与人类司机不同的是,如果系统没有遇到场景,它就无法推理该做什么。“任何AI系统都不了解实际发生的事情,”这是研究自动驾驶汽车计算机视觉的康奈尔大学副教授克里安·温伯格(Kilian Weinberger)下的断言。
02
混合规划系统
我们再来看看,自动驾驶软件总监Ashok Elluswamy介绍的混合规划系统。他通过展示 Autopilot如何执行车道变换来证明这套解决方案的先进。
具体来说,当特斯拉的车与其他汽车并排行驶时,Autopilot 不仅要考虑它们的驾驶方式,还必须考虑其他汽车的运行方式。他展示了一段特斯拉的车在道路上行驶并与多辆车打交道的视频,来证明这一点。
而这时候,Karpathy回来讨论数据标注的问题。他指出,外包给第三方公司的手动标签并不是最佳选择。因此,特斯拉选择建立自己的标签团队。Karpathy指出,最初特斯拉使用的是 2D 图像标记。最终,特斯拉过渡到4D标签,也就是可以在“矢量空间”中进行标签。
▲特斯拉全自动驾驶最终架构
但这还不够,因此特斯拉开发了自动标签。Ashok表示,因为有太多的标签需要完成,手动完成是不可能的。他展示了“重建”的过程:道路和道路上的其他物品如何从一辆正在行驶的汽车中“重建”出来。
这让特斯拉能够有效、更快地标记数据,同时,车辆即使在存在遮挡的情况下也能安全准确地导航。Ashok表示,这些策略最终帮助特斯拉从其FSD和Autopilot套件中淘汰了雷达,并采用了纯视觉模型。雷达+摄像头系统与纯视觉之间的比较,显示了公司当前的战略有多精细。
这位高管还谈到了“仿真”是如何帮助特斯拉开发其自动驾驶系统的。例如,它帮助公司识别行人、自行车和车辆检测和运动学。他指出,当数据难以获取、难以标记或处于闭环状态时,“仿真”会有所帮助。这些,都基于3.71 亿张模拟图像和4.8亿个长方体“标签”。
Ashok说,“仿真”已经对特斯拉产生很大帮助。看到这里,我只能说,对于越走越偏的特斯拉来说,真的是“谜之自信”。
1 2 下一页>