AI大模型,智能汽车的下一个战场?
刘旷ChatGPT走红后,大模型的热度持续不减,并日渐形成了“千模大战”的局面。前两个月,百度、阿里、腾讯加入;进入5月份,先有网易有道,发布了基于“子曰”大模型开发的AI口语老师剧透视频,介绍其基于教育场景的类ChatGPT产品;后有科大讯飞,发布认知大模型“讯飞星火”……总之,各种大大小小的发布会,都在向外界证明自己到底有多大的想象空间。
在大模型进展如火如荼之下,其产业化也被越来越多地提及,从前炒作的“AI+”也再次站上风口。在此背景下,关于AI大模型在汽车领域的应用,也开始热度飙升。
(配图来自Canva可画)
智能汽车的“ChatGPT时刻”来了
目前来看,大模型重构各行各业虽然已经成为业界共识,但ChatGPT“上车”远比预想中的来得更快。作为继家庭和办公场所之外的“第三空间”,汽车正在变成一个新型智能终端。ChatGPT到来了之后,车机关系也受到了更多的影响。
一是ChatGPT对汽车自动驾驶的影响。业内人士分析表示,大模型具备对海量数据的处理能力以及多维度分析能力,可以提供更精准、更全面的数据分析和预测能力,持续优化模型,提高智能驾驶的准确性和可靠性。尤其是随着ChatGPT的出现,人们发现当模型的参数量,达到了一定程度之后,呈现出的效果不是“性能变好”,而是“出奇的好”。
具体到应用层面,大模型对自动驾驶的影响是:在云端,车企可以发挥模型参数量的大容量优势,通过大模型完成绝大多数的数据标注和数据挖掘工作,节省数据标注成本,还能够借助仿真场景构建赋能。在车端,它可以将分管不同子任务的小模型合并为一个大模型,节省车端推理计算时间,增加汽车安全性。最重要的是,被认为是自动驾驶算法终局的端到端感知决策一体化算法瓶颈,或许在汽车接入大模型之后可以得到有效解决,自动驾驶算法升级指日可待。
二是对汽车智能座舱的影响。车载ChatGPT语音助手,可以处理完整的对话,比如追问,并能保持对前后文的理解,形成较为良好的语音交互体验。比如,微软与梅赛德斯—奔驰探索ChatGPT的插件生态系统,为第三方服务集成开辟可能性。驾驶员未来有望通过车载系统完成预订餐厅、预订电影票等任务,进一步提升便利性和生产力,极大地丰富智能汽车与人之间的交互体验。
另外,在改变智能驾驶和智能座舱交互能力的情况下,其也对汽车的研发方式和商业模式产生全新的影响。研发方式方面,由于机器的高效标注能力,使得需要一年时间的数据标注任务,现在只需要短短数小时,研发周期大幅缩短,而且多模态(视觉、语音、手势等)的丰富数据,更可以进一步提升总体的研发效能,降低研发成本。就商业模式而言,车载AI语音交互在它具备情感智能之后,它就会从“雇佣关系”演变成“陪伴关系”,对人的喜好和习惯会更加了解,这将会衍生出全新的商业价值。
产业探索流派纷呈
或许正是意识到了这一点,现在正有越来越多的车企选择接入AI大模型。除了国外的奔驰宣布ChatGPT之外,国内理想汽车也发布了自研大模型MindGPT,百度的文心一言也被接入到了长安、吉利、岚图、红旗、零跑等众多车企之中,就连“让梦想窒息”的法拉利未来,也在新车中纳入了大模型,不难预见未来大模型在智能汽车中普及,将会是大概率事件。从整个参与的车企来看,其发展大模型的方向和侧重点并不相同。
从功能上来看其主要可以分为以下两类:一类是用于人工智能交流对话领域,多数应用在智能座舱上。比如,百度的文心一言,目前已经有东风日产、红旗、长城等近十家车企宣布接入;上海车展期间,商汤科技亮相了日日新Sensenova大模型,展示了其中文语言模型“商量SenseChat”以及“如影SenseAvatar”等与座舱的结合;此前阿里巴巴也宣布AliOS智能汽车操作系统,已接入通义千问大模型进行测试等。
另一类是聚焦智能驾驶的大模型应用。比如毫末智行发布了自动驾驶生成式大模型DriveGPT,帮助解决认知决策问题,最终实现端到端的自动驾驶。理想汽车自研大模型MindGPT,摆脱对高清地图的依赖,让汽车做到更接近人类司机的驾驶表现。蔚来、小鹏、长城、奇瑞四家车企,也已经注册申请了多个与GPT相关的商标。
从参与主体来看,也主要可以分为两类:一是车企亲自下场做的,如理想汽车、百度将自家大模型应用于自家汽车产品等;另一类是外部厂商提供大模型给车企,比如华为盘古大模型、百度文心一言等用于给其他车企使用。
相较通用大模型来说,垂直领域的大模型训练和使用成本更低,或许会成为更容易实现商业化落地的领域。业内人士分析称,汽车有着明确的交互需求,且相较于通用大模型,垂直领域的应用场景相对较小,对参数的量级要求也没有通用型AI那么大。因此,无论是传统车厂还是新势力,抑或是大模型科技厂商,普遍认为智能汽车最有可能成为率先实现大模型落地的B端场景。
大模型规模上车时机尚未成熟
目前来看,尽管ChatGPT的首发“上车”,已经拉开了智能汽车领域大模型较量的序幕。但现阶段距离大模型的真正规模上车,也还有一段距离。
首先,车企做大模型,多模态数据的收集、处理、训练本身是一个难题。自动驾驶所需传感器数据包括激光雷达、毫米波雷达、超声波雷达,以及高清摄像头、GPS等。这些数据来自不同的坐标系,带有不同的触发时间戳,且要考虑到硬件损坏等问题;同时,需要大量的场景数据,比如交通标志线、交通流、行为模型等。这让汽车大模型的研发、训练门槛变得很高。
业内人士认为,模型数据调动管理需要利用智能网联汽车以及计算技术平台、云控技术平台等诸多平台,只有做到海量数据汇聚才可以做交叉,尤其是垂直领域,这和车内的其他系统并不相同,假如基础的平台能力不能打通,其很难向更深层次发展。另外,尽管生成式AI在信息获取上获得了突破,但在决策、执行控制层面,其离真正在汽车上落地还有较大的距离。
另外,端到端的AI大模型训练,需要在智能汽车中构建全新的基于AI大模型的全新算法,这也需要一个过程,业内人士认为至少需要3—5年甚至更长的时间,来完成这一过程。
其次,受限于车载设备的硬件条件,汽车内大模型所需要的硬件配置可能会受到限制,难以有效发挥好作用。具体来说,大模型需要高规格的硬件配置,包括高性能计算能力、大容量内存和低时延等特点,但车载设备的硬件条件相对有限,无法提供足够的算力资源支撑大模型运行。比如,在自然语言处理领域的GPT-3模型,就需要数万亿TOPS的计算能力。这要求芯片的算力至少要在万级TOPS以上,才能够胜任大模型的计算任务。但是在车载部署场景下,芯片的算力往往只有数百TOPS,远远达不到大型模型的要求。
在此背景下,升级汽车内的算力基础设施已成必然趋势,目前来看智算中心或许会成为未来智能汽车的“标配”。比如,特斯拉发布了独立的云端智算中心——Dojo,总计使用了1.4万个英伟达的GPU来训练AI模型。在国内,小鹏汽车与阿里云合建了智算中心“扶摇”,专门用于自动驾驶模型训练,算力可达到600PFLOPS;毫末智行与火山引擎联合打造了国内自动驾驶行业最大的智算中心“雪湖.绿洲”,每秒浮点运算可达到67亿亿次。不过,目前这些建设还处于探索应用阶段,大模型应用大规模上车的时机,还没有完全成熟。
底层技术才是未来角逐焦点
目前来看,AI大模型对汽车最本质的改变,可能在于它将进一步驱动汽车,从制造属性向科技+消费电子属性转变。在这种背景下,车厂本身的底层科技能力,将会成为未来的决胜关键。
一方面,AI大模型会重新定义“人机交互”和“服务生态”,加速汽车应用服务生态消费电子化,这将改变底层的产品定义。当前车载语音系统底层是未完全成熟的任务型对话系统,尚无法真正实现个性化、情感化、自由化的交互能力,而大模型可以通过深度学习+语音生成,迎来开放场景+自然交互的全新人机交互体验。同时,在研发设计上,随着大模型的OS化,传统的APP上车、点触功能、HMI交付的必要性和重要性值得思考,这意味着汽车“产品”的重新定义。
正如前华为自动驾驶产品部部长苏箐所言:“传统车厂看法首先我的基座是车,现在有些计算机的单点,那么我是把车作为一个基础,试图把计算机嵌进去,这是传统车厂的看法。我们的看法不一样,基础是计算机,车是计算机控制的外设,一个大计算机了事,把车挂上去。这是本质看法不一样。”事实上,在大模型上车之后,汽车的计算中心、智能化、消费电子属性将变得更加明显,其产品定义将遵循消费电子的底层逻辑迭代演变(如APP化、生态服务等)。
另一方面,AI大模型将会改变汽车的现有算法,考虑到大模型应用所需要的硬件成本以及外部环境来看,未来国内企业大模型的技术实力,将更加取决于包括AI操作系统等在内的底层技术。具体来说,原来汽车的自动驾驶算法较为依赖人工,而接入大模型之后,就需要依靠大模型驱动形成新的智能算法,而要构筑这样的算法,除了要做好产品,还要做好平台。
比如,围绕芯片、云端等在内的计算平台,需要做到低成本、可标配;有了好的产品,才能够有足够多的销量,有足够多的销量,才能增加“端到端”(云端到车端)的闭环数据;作为基础支撑的AI大算力芯片,也需要重新考虑车企自身的情况来做,回到底层来说就是谁的训练成本低,谁的转化速度快,谁就将跑到最前面。
拿英伟达的训练芯片来说,一枚芯片被炒到了10万块钱,关键是这种高成本芯片训练方案,对于车企并非最优解决办法。而且受外部制裁影响,这种“外供依赖”随时有可能被掐掉,脆弱性很大。因而从长远来看,车企想要在这一领域走到行业前列去,要么加大对底层芯片的自研力度以减少采购成本,如百度自研AI芯片,要么在AI算法、操作系统上去寻求破局,以找到最佳的应用路径。