机器人赛道有多火?

物联网智库

    资料来源:voxposer.github.io等
    作者:Alex
    物联网智库 整理发布
    导读
    近期,由知名美籍华裔人工智能学者李飞飞带队的项目组,发布了一项最新的“具身智能”成果——VoxPoser。
    你的童年里是否也有一段关于机器人的记忆——来自于阿诺德·施瓦辛格饰演的T-800终结者。
    1984年,这部由好莱坞鬼才导演詹姆斯·卡梅隆执导的科幻电影《终结者》上映即获得无数影迷追捧,原因无他,除了一众影星的倾情演绎之外,导演天马行空的想象着实让当时的人为之着迷。
    如今距离电影上映已过去将近40年时间,而电影中具有独立行动能力的机器人也被科学家们真真实实地搬进了现实当中。
    就在近期,由知名美籍华裔人工智能学者李飞飞带队的项目组,发布了一项最新的“具身智能”成果——VoxPoser。
    该项目主要研究目标是——在给定开放式指令集和对象集的情况下,为各种操作任务合成机器人轨迹,即密集的六个自由度末端执行器航点序列。
    
    该项目通过从大语言模型和视觉-语言模型中提取机会和约束,构建3D值地图,可以让机器人在零样本学习的情况下,理解指令,分解任务,规划路径,并最终实现操作任务。
    值得一提的是,在该方法下进行机器人操控时,是不需要做数据投喂和预训练的。
    
    目前,关于该项成果的项目主页和相关论文都已经上线,对应的代码也即将推出。
    关于VoxPoser
    关于VoxPoser这项成果,可以说又是人工智能领域和机器人领域融合的一个新的里程碑。
    它正在让抽象的AI通过机器人变得具象化,未来,或许你期望的就不再是童年的那个“T-800终结者”玩具,而可能是真正的具备具身智能的机器人。
    具体来说,VoxPoser的原理解释起来还是相对简单的。
    
    就是使用者给定执行具体需求的自然语言指令,以及环境信息(通过相机采集的RGB-D的图像)。
    然后,LLM(Large Language Model,大语言模型)将根据以上信息生成与VLM(Visual Language Model,视觉-语言模型)交互的代码。
    基于这一系列操作,系统会自动生成相应的供机器人进行空间感知的“3D Value Map”(3D值图)。它会“告诉”机器人自己在哪里、目标在哪里。
    之后进入下一个阶段,将生成的3D值图用作机器人运动规划的目标函数,便能够合成最终要进行的操作轨迹了。
    这一成果的最大亮点在于——整个机器人训练过程是不需要进行任何额外的数据投喂和预训练的。换而言之,目前机器人训练所需要进行的预定义训练、大规模数据缺失等问题,在这里统统不存在。
    正是因为具备上述能力,机器人只要符合相关流程,也基本能够完成任何给定任务。
    
    基于此,项目团队按照该方法进行了大量的实验,通过下达日常操作任务,比如,“把毛巾挂在架子上”、“把最上面的抽屉关上”、“把面包片从面包机中取出来,放到木板上”等,对VoxPoser进行验证。
    在实验过程中,项目团队还故意了打断任务执行,展示了该成果在动态扰动下的鲁棒性。
    由于语言模型输出在整个任务中保持不变,因此VoPoser可以缓存其输出,并使用闭环视觉反馈重新评估生成的代码,从而可以使用MPC快速重新规划。
    
    比如当对机器人发出“把垃圾纸分类到蓝色托盘里”,可以看到无论怎样对机器人进行干扰,包括阻止机器人行动、调整物品摆放,它都可以顺利执行任务。
    
    论文指出,无论是在真实领域,还是模拟领域,VoPoser的实验结果要显著优于基于基线任务。
    
    在真实领域,VoPoser表现的会更加灵活、更加稳健,尤其在外部干扰的情况下。
    另外,模拟领域中,VoPoser在两个类别(总共13个任务)上的表现也更好。
    
    VoPoser在零样本下的学习能力和出错情况也更优。
    另外,论文阐述了VoPoser所涌现的四个新能力:
    估算物理属性:给定两个未知质量的方块,机器人被要求使用现有工具进行物理实验,确定哪个方块更重。
    常识性行为推理:在摆桌子的任务中,用户可以指定行为偏好,比如“我是左撇子”,这要求机器人在任务环境中理解其含义。
    细粒度语言校正:对于需要高精度的任务,比如“用盖子盖住茶壶”,用户可以给机器人提供精确的指令,比如“你离目标有1厘米的偏差”。
    多步骤视觉操作:在任务“精确地将抽屉打开一半”的情况下,由于物体模型不可用,信息不足,机器人可以根据视觉反馈提出多步骤的操纵策略。首先完全打开抽屉并记录把手的位移,然后将其关闭到中间位置以满足要求。
    
    机器人开启AI的下一个浪潮
    VoPoser的诞生并非偶然。去年年中,李飞飞曾在一篇文章中指出,计算机视觉未来发展的几个重要方向,其中最重要的一个就是具身智能。
    所谓具身智能,就是Embodied Intelligence,简称EI,图灵于1950年在论文《Computing Machinery and Intelligence》中第一次提出这一概念。具身智能可以让机器像人一样能和环境交互感知,自主规划、决策、行动,并具备执行能力,也被认为是AI的终极形态。
    李飞飞直言,具身智能将会成为AI领域的下一个“北极星问题”之一。而在不久前的ITF World 2023半导体大会上,英伟达首席执行官黄仁勋也表达了类似的观点,称“AI的下一个浪潮将是具身智能”。
    无独有偶,对于具身智能引发的AI与机器人融合所形成的巨大想象空间,李飞飞也并不是唯一的“追光者”。
    因ChatGPT有“老树逢春”感觉的微软也没闲着,他们此前也发布了一篇论文,探索大模型与机器人的结合。
    论文提到,将把ChatGPT的功能扩展到机器人领域,从而可以让使用者用自然语言去控制如机械臂、无人机、家庭辅助机器人等“智能体”。
    除了微软之外,在今年年初,谷歌尽管在ChatGPT上栽了跟头,但在具身智能领域却并未迟疑。比起论文来,谷歌反倒直接“甩”出了一个参数达5620亿的具身多模态语言模型——PaLM-E,其最亮眼的能力就是可以让机器人具备“听懂人话”的能力。
    据了解,PaLM-E-562B集成了参数量540B的PaLM和参数量22B的视觉 Transformer(ViT),是目前已知的最大的视觉-语言模型。
    而在国内,刚刚过去的“2023世界人工智能大会上”(WAIC),智能机器人简直成了除AIGC之外的另一大亮点。会上,数百家国内外企业集结,各家智能机器人同台竞技。
    比如智能机器人企业达闼,全方位展示了具身智能服务机器人解决方案。据了解,达闼此次亮相的多台机器人,全部接入和升级了达闼最新发布的RobotGPT、海睿AGI和海睿OS 5.1。
    
    其中,达闼人形机器人小姜下一代Cloud Ginger 2.0全身采用了新一代智能柔性关节SCA2.0和多种传感器,同时具备视觉和激光定位导航能力,可以包揽迎宾接待、商务导览、冲泡咖啡、物品递送、节目表演、教育科研、陪护照看等多种任务。
    另据市场消息,达闼机器人已获超10亿人民币C轮融资。此前,达闼机器人完成5轮融资,赴美上市失败后有消息称其今年将赴港上市。
    云深处科技则在本届大会上亮相了四足机器人绝影Lite3和工业级绝影X20多传感融合版。尤其值得一提的是,绝影X20面向工业垂类赛道,具备AI智能识别和自主任务规划功能,可以为电力、建筑等专业行业提供解决方案。
    而除了机器人本赛道的玩家“乐此不疲”的追逐具身智能的风口之外,还有越来越多的“跨界选手”加入其中。
    互联网科技企业代表:网易、字节跳动、京东、美团等巨头均没闲着,纷纷投资成立了专业机器人业务公司。
    据公开消息显示,6月28日,杭州网易轩之辕智能科技有限公司、网易牵波智能科技(杭州)有限公司同时成立,经营范围包括了智能机器人的研发和人工智能应用软件的开发。而需要指出的是,事实上早在2017年,网易就成立了网易伏羲,并且网易伏羲具身智能工程机器人也在本届WAIC上惊艳亮相。
    紧随网易的是字节跳动,7月4日,该公司传出也将要造机器人。并且消息透露,其机器人团队目前已经集合50人,年底将扩充至百人以上。成立后,字节机器人团队将隶属于字节AI Lab,由现任总监李航领导。
    京东虽然暂时没有关于新的机器人公司成立的消息爆出,但据6月初的消息显示,京东集团旗下全平台云计算综合服务提供商京东云计算有限公司也进行了工商变更, 经营范围新增了智能机器人研发、电池零配件生产等。
    传统行业玩家中,碧桂园、中国石化等躬亲入局。其中,碧桂园较早就入局机器人赛道,而中国石化销售股份有限公司联合航天云机(北京)科技有限公司则在今年初成立的易嘉油智能机器人有限公司,主要做服务消费机器人制造、服务消费机器人销售、智能机器人的研发等。
    写在最后
    作为从科幻电影中走进现实的一个典型应用,人们对于机器人的向往绝不是说说而已。
    值得一提的是,受到WAIC影响,机器人赛道的持续火爆引起了资本领域的极大兴趣,期间机器人相关板块备受关注,企业股票也是顺势上涨。
    另据中国电子学会在《中国机器人产业发展报告(2022年)》中的预测,到2024年,全球机器人市场规模将有望突破650亿美元。
    真金白银的投入,往往说明了问题——随着AI大模型和机器人的深度融合,更智能、更聪明的机器人势必将成为新一轮的创新风口。
    参考资料:
    1.https://voxposer.github.io/
    2.https://voxposer.github.io/voxposer.pdf
    3.https://www.youtube.com/watch?v=Yvn4eR05A3M
    4.https://mp.weixin.qq.com/s/eaZtaYMJYe0oCLq1h0fPiw
    5.https://mp.weixin.qq.com/s/XleXS_5shzZNiOSxUFZfgQ
    6.https://mp.weixin.qq.com/s/s0YEUCHlix-AVQAU_gtlZA
    7.https://www.thepaper.cn/newsDetail_forward_18791323
    8.https://www.zhihu.com/question/540675571