一个大脑、两类终端,一文看懂特斯拉2022 AI Day

光锥智能

    
    文|卢滢西 周文斌
    “特斯拉是有四个轮子的机器人,而Optimus就是有两条腿的机器人。”
    北京时间10月1日,特斯拉CEO马斯克在2022年AI Day上,正式发布人形机器人擎天柱Optimus原型机,展示了人形机器人在汽车工厂搬运箱子、浇植物、移动金属棒的视频。
    
    “擎天柱”在搬运箱子
    马斯克一直在强调“我们就是想尽快设计出有用的量产机器人”,售价要在2万美元左右,3~5年内实现量产。这决定了机器人的整体设计路线,走的并不是如波士顿动力一样“高大上”的实验室路线。
    除了人形机器人的炫酷之外,作为机器人和智能汽车共同应用的部分,自动驾驶也是此次AI DAY的重要组成部分。
    这次AI DAY上,特斯拉从基础训练、Occupancy系统、车道和物体、规划、人工智能编译器和推理、自动贴标、模拟、数据引擎这八个部分,整体介绍了自家自动驾驶从环境感知、数据收集、训练、处理、到应用的整套流程。
    而从这次介绍中我们也发现,特斯拉的自动驾驶技术方案于8月底毫末在AI DAY上提出的方向都颇有许多一致性。
    比如双方都对云端训练的重视,并投入了大量的资源在超算中心和云端训练算法上。比如在车端推理上基于Attention的 transformer做前融合,比如仿真训练,以及自然语言处理等等。
    这其实都在说明,无论是国外还是国内,自动驾驶在工程化上的探索,终于走到了相互交集的时候。下面一起来看看具体内容。
    3年量产、售价2万美元,人形机器人有哪些技术细节?
    1、“擎天柱”的整体情况
    在去年AI Day上介绍特斯拉机器人的概念以后,“擎天柱”一共迭代了三个版本。最新一代的“擎天柱”身高170cm,体重73kg,用电功率在静坐时为100W,快走时500W,全身有200多个自由度,手部27个自由度。
    
    “擎天柱”的内部构造
    设计“擎天柱”的过程中,为了减少功耗,特斯拉将配电和计算集中到躯干中心,在躯干里装了一个2.3千瓦时的电池组,并且还搭载着特斯拉自研的SoC芯片,配备Wi-Fi和LTE连接网络。特斯拉官方称,这个电池组能够维持机器人一整天的工作,但有媒体根据已知的数据测算,如果不间断地工作,“擎天柱”的续航时间大概在1.5-2小时之间。
    在大脑部分,特斯拉的全自动驾驶系统FSD直接被应用在擎天柱身上,但由于人形机器人的需求和形式与汽车仍然存在差异,因此,还做了三方面的改变。
    首先,基于多个感官传感输入,让机器人能够处理视觉数据并做出决策;其次,有很多无线连接和音频支持通信。另外,在硬件上,“擎天柱”也需要确保安全性,包括保护机器人本身和机器人周围的人,这就涉及到机器人的四肢控制。
    机器人的结构基础上,人形机器人复用了特斯拉汽车基于物理的生产能力以及模拟能力,让用于汽车撞击实验的软件也来做机器人的撞击实验,进行损害破坏的控制,防止昂贵的“大脑”过度损伤。同时,“擎天柱”身上有很多的执行器,通过这些执行器可以让人形机器人完成比如上楼、下蹲、拿东西等各类任务。
    2、“擎天柱”靠什么动起来?
    实现这些动作就需要设定相应的指标,而这些设计也来自于一些生物学的非线性原理。通过展示出机器人在进行上楼梯、下蹲等动作时,关节会呈现什么样的压力曲线,来满足安全性的相关要求。另外,动作的实施也对执行器的扭矩提出相关要求。
    那么“擎天柱 ”的执行器是如何设计、生产出来的呢?
    在机器人身上,执行器所执行的工作与关节所要承受的压力相关,在实践之前需要先进行验证,将相关参数放到优化模型中来适应不同的场景,根据任务所需能耗和时间来对执行器的成本进行详细设计。因此,特斯拉先对“擎天柱”的28个结构执行器进行共性分析,测试如何让执行器可以满足多于一个关节的要求,再进行点云解析。
    
    点云解析
    发布会上透露,执行器一共有6种不同的设计,它们的扭矩、输出力和质量都完全不同。机器人身体不同部分的关节自由度各不相同,因此需要在极限情况下对执行器进行测试。AI DAY的现场,通过一段提起一架将近半吨的钢琴的视频,对执行器的承压能力进行了演示。
    
    6种不同设计的执行器
    在手部的抓取上,特斯拉的人形机器人团队为“擎天柱”设计了金属基件,通过金属基件驱动机器人的手,能够抓取很小、很薄的东西。此外,“擎天柱”的手指上还装有手指驱动器,离合机制让机器人即使不打开手也能够进行活动。
    
    “擎天柱”的手部关节展示
    3、“擎天柱”如何实现看得见、走得稳?
    “擎天柱”机器人采用了和汽车一样的感知方案——用摄像头输入数据,以神经网络进行计算。同时,在运动、规划和控制性上,特斯拉已经在汽车场景上积累了不少经验,形成了一套FSD系统,而运动规划的沉淀又可以复用到机器人上,生成机器人运动学模型进行相应的路径规划。
    为了让人形机器人对时间和空间形成一定的记忆,特斯拉对“擎天柱”进行了一系列的训练,改善了占用网络使用方法,使得机器人能够更准确、快速地识别行驶区域。此外,还运用了大量的渲染,让人形机器人能够与现实环境更好地互动。
    
    机器人看到的世界
    在人形机器人关键的运动控制方面,虽然“擎天柱”目前能够实现整体的平衡,但在现实中,机器人不仅要有对于自身物理存在的感知以及对周围环境的完整感知,还需要让运动轨迹和机器人可以提供的支撑力量更好地结合,防止跌跌撞撞的情况发生,扭矩是其中非常重要的一个因素。
    只有使用传感器和计算机视觉对周围世界的感知进行动态评估,才能确保机器人保持良好的姿态和步态。
    为此,特斯拉通过对动作进行捕捉后,做可视化处理,形成“关键帧”。躯干、手、腿的位置都会做详细的关键帧分析,再将这些数据映射到机器人身上,更好地实现轨迹优化。
    目前,特斯拉已经搜集了很多数据并建立了可用的数据库,通过轨迹优化程序让机器人能够更好地了解自己的物理位置以及物理轨迹。
    
    运动轨迹
    这个被网友戏称,跟小米的“铁大”住在同一个养老院的“擎天柱”虽然目前功能并不完善,甚至走得都不算稳健,但马斯克对人形机器人的未来依然充满信心:“擎天柱预计产量非常高,未来可达数百万台。价格将比汽车低得多,可能不到2万美元。”
    
           16万客户,年底全球推出,特斯拉自动驾驶有哪些进展?
    这次AI DAY 除了人形机器人之外,自动驾驶也是重要组成部分。
    会上,特斯拉Autopilot负责人Ashok Ellaswamy表示,2021年特斯拉FSD Beta只有2000名客户,但如今这一数字增长到16万,而这一成果,来源于自动驾驶团队对75,000多个神经网络模型进行训练。
    而在具体实践方面,自动驾驶面临哪些问题、挑战,以及解决方案,这次AI DAY上特斯拉也从基础训练、Occupancy系统、车道和物体,规划、人工智能编译器和推理、自动贴标、模拟、数据引擎这八个部分分别进行了细致的讲解。
    
    特斯拉自动驾驶实践模型
    1、路线规划与计算
    首先是路线规划方面,特斯拉向观众展示了一个十字路口行人过马路场景,自动驾驶的车辆要绕过行人实现左转,如何把握最好的转向时机、是从行人的前方通过,还是从后方绕行、以及如何防止和周围的车辆发生碰撞,都是路线规划方面的问题。
    
    在这个场景中,特斯拉自动驾驶可以通过大量的计算实现路线规划和障碍物的规避。
    简单来说,就是自动驾驶首先通过感知系统识别感知到障碍物,比如图片中正在过马路的路人,然后通过对它的行进轨迹、行进速度计算得出它可能的行进路线。
    就像这样,特斯拉需要将这个路口周围所有的障碍物的轨迹都计算出来,然后再根据自己行动速度进行路线规划,看是从他的前方通过,还是从后面绕行。
    这个过程说起来简单,但实际的决策会涉及到许多规划的问题,比如后方突然来车,就需要用到防碰撞系统。因此整个系统具体可以包括轨迹评分、碰撞计算、平顺性分析、进入性可行性分析四个部分。
    
           2、Occupancy网络和视频训练库
    在路线规划系统背后,就需要应用到大量的计算和强大的环境感知,也就是后面提到的Occupancy,即占用网络。通过占据网络,特斯拉可以让模型获得预测物体所占据空间的能力,并在向量空间里生成由一个个立方体组成的环境。
    有这个环境作为基础,特斯拉自动驾驶在行驶过程中,路线规划就会可以避开这些“立方体”,车辆可以在不必识别出具体是什么障碍物的情况下做出避让动作。除此之外,FSD还可以借助该数字环境识别道路坡度/曲率,让车辆根据实际道路情况提前预测加速/减速,进一步提高安全性和舒适度。
    由于数据训练都是基于大量原始视频文件,所以特斯拉为此专门设计了一个视频训练库,它可以存储大量的视频原始文件并直接提供给服务器使用。
    相比普通的存储服务器,这个视频训练库可以让训练速度提升30%,存储文件的空间下降11%,读取速度最小每秒读写次数提升4倍。
    3、自动标注与仿真训练
    拥有了数据,紧接着而来的问题就是对数据进行标注和处理。
    为了完成这个任务,特斯拉内部有一个由1.4万个GPU组成的超级计算机。这1.4万GPU,有4千个用在了汽车贴标测试上,有1万个用在了数据训练。在此之外,特斯拉还有许多视频缓存方面的应用,因为在数据训练的时候,需要大量的图像同时导入导出,而要保证这些图像的流畅,就需要对缓存进行非常好的处理。
    当然,即使有4千个GPU用作数据标注,但如果所有的标注都依靠人工,那光特斯拉每天收集的数据就需要人工处理几个月的时间。所以特斯拉为此还开发了一个“数据自动标注”系统。
    除了数据自动标注之外,特斯拉还在做的一个事情是仿真模拟的自动生成,这是一个类似数字孪生的的概念。通过模拟仿真,特斯拉可以在系统中对自动驾驶进行训练,按AI DAY上的说法,这可以将自动驾驶的训练效率提高1000倍。
    仿真训练是针对有标数据的,然后再把这些数据导入到数据引擎,看看这些仿真训练的数据是否成立,如果不成立,就再返回去再重新计算。
    仿真训练的一个好处是,它可以模拟许多现实环境中不存在的情况,这些情况通过实际的路测很难遇到,但我们无法保证这些情况不会出现,如果一旦出现,系统没有准备,那结果可能将是致命的。
    而模拟仿真可以将这些现实极难碰到,或者不可能出现的情况模拟出来,用作自动驾驶训练。为此,特斯拉模拟了旧金山的交通数据,这个数据如果人类来做需要一两周甚至几个月的时间,但是用模拟器来做,一夜之间就能完成。
    4、DOJO超级计算机
    说到这里,其实我们会发现,数据、训练一直是特斯拉自动驾驶的关键词,而要完成这么多的训练,算力就成为了其中的关键。
    用特斯拉工程师的话说, 算力是训练的基本粮食,没有算力,训练会很难执行,或者效率会非常低。所以在这次AI DAY上,特斯拉也着重介绍了自家的超级计算机——DOJO。
    DOJO来自日语“道场”,也有训练场的意思。而在特斯拉内部,DOJO就是专门用来进行模拟训练的,它往往要面对规模极大的模型,包含数以亿计的数据、参数。
    为了解决这些问题,特斯拉的方法是将25个D1芯片集成在一个训练瓦片(Tile)上,让每个训练瓦片都具备54P算力和13.4TB/S对分带宽。6个训练瓦片、20片接口处理器又可以组成一个托盘,两个托盘又可以形成一个机柜,许多个机柜组合在一起,就形成了超算DOJO。
    简单理解,其实超算DOJO就是无数个D1芯片的叠加累计。 当然这最后的效果是非常明显的,因为每台ExaPOD的训练性能都具备1.1E算力、1.3T高速内存、13TB高带宽内存,4台即相当72个GPU机柜的训练性能。
    可以说,DOJO的出现,实现人工智能训练的超高算力,同时扩展带宽、减少延迟、节省成本的需求。
    总的来说,在这次AI DAY上,特斯拉整体介绍了自家自动驾驶从环境感知、数据收集、训练、处理、到应用的整套流程。
    而这一切的实现,又都是从围绕着特斯拉汽车周围的八个摄像头的视觉识别开始的。
    通常,当一辆特斯拉的汽车行驶在路上的时候,自动驾驶首先会对汽车周围的路况进行识别,比如墙、其他汽车、或者建筑等等,然后再导入到神经系统中,通过这个数据的导入导出进行计算,然后对未来这这些汽车行动进行规划,然后再结合地图信息,比如知道的车在什么位置,下一个路口需要往什么方向转弯等等,然后再结合一些其他数据,最终实现车辆障碍物的规避和路线规划。
    整套逻辑的理论,都是汽车只专注于开好当前这段路,这就像人类驾驶员的开车逻辑一样。这套逻辑和毫末在8月底刚刚举办的AI DAY上提出的方向颇有许多一致性。
    这种一致性,也表现在其他方面,比如对云端训练的重视,投入了大量的资源在超算中心和云端训练算法上。比如在车端推理上基于Attention的 transformer做前融合,比如仿真训练,以及自然语言处理等等。
    这其实都在说明,自动驾驶在工程化上的探索,终于走到了相互交集的时候。