具身智能,开启机器人纪元
阿尔法工场导语:?形机器?将是下?代终端。具?智能机器?的出现才会是真正的「iPhone」时刻。
时至8月,火热了半年之久的AI赛道,已俨然显示出了降温之势。
可就在这个关头,由号称华为天才少年——稚晖君打造的人形AI机器人——「远征A1」却赫然登场,用一系列亮眼的特点,振奋了已显冷淡的AI赛场。
舞台之上,这个迈着小碎步入场的机器人,引来了整个行业的关注。
而这个由智元机器人(Agibot)发布的具身智能机器人,之所以能在业内引起如此大反响,则是因为其具备了最新的AI大模型能力。
根据稚晖君在发布会上展示的内容,灵巧自如的远征A1,不但能做家务、制备实验样本,甚至还能胜任看护老人这类需要“体贴”的工作。
那么,这个看似“面面俱到”的AI机器人,究竟是如何在不同环境中,胜任各种复杂工作的?
其所代表的AI+具身机器人赛道,是否真的代表了未来AI的方向?抑或只是像元宇宙那样,成为一个难以落地的“概念化”产品?
01 “人形”的必要性
在讨论人形机器人的未来之前,有一个需要明确的问题是:为什么人类总是倾向于将机器人设计成人形?
对于这个问题,稚晖君表示,原因就在于“从第一性原理出发,人形双足机器人是人类环境中最为通用的终极形态!”
换句话说,机器人要想真正进入人类的生活,就得适应各种为人体形态量身打造的场景、设备、任务。
例如,具身机器人如果想帮人类操作仪器,抓握东西,那就必须具备人类那样灵巧的手指;
如果它想在城市环境中,迈过各种楼梯、台阶,那就得具备和人类一样能弯曲的膝盖。
而要想实现这样的灵活性、协调性,就必须在机器人的硬件构成上,进行一系列重要的设计。在这方面,智元机器人较为独特的技术之一,就是谐波一体关节。
这是机器人的传动装置,用来降低转速、增大扭矩等,相当于人类的「关节」。
一般来说,机器人的结构和关节,决定了它的自由度,
而自由度是指机器人的运动能力,也就是机器人能够独立控制的运动变量的个数。
自由度越高,机器人的运动越灵活,越能适应各种复杂的环境和任务。
目前,远征A1的自由度超过了49个,手部有12个主动自由度。
而相较之下,马斯克的“擎天柱”人形双足机器人全身有200多个自由度,手部27个自由度。
虽与世界顶尖机器人有着一定差距,但六个月的时间,能做到这个地步,也实属可观了。
而除了自由度之外,另一个衡量人形机器人的指标,就是其关节的“控制扭矩”,
控制扭矩主要决定了机器人的运动力量,也就是机器人能够产生多大的转动力来驱动关节和执行器。
如果类比成人类的能力,相当于人的肌肉力量,就是肌肉产生多大的推拉、举起、扭转等动作的能力。
在这方面,远征A1一体化自研的矢量控制驱动器,整体的控制扭矩可以容易地超过350Nm。
而这样的控制扭矩,则是由智元机器人自研的PowerFlow关节电机造就的。
PowerFlow关节电机创新性的液冷循环散热系统,可以有效地将电机内部产生的热量通过液体传导到外部的散热器,从而降低电机的温度和阻抗,提高电机的效率和稳定性。
这样,电机就可以在更高的功率密度和扭矩下运行,而不会过热或损坏。
同时,PowerFlow关节电机还采用了径向磁通的外转子电机方案。
因为在这样的方案中,转子组件固定在内部,并且磁场方向沿着半径方向分布,磁场能量更集中,绕组和铁芯的散热效果更好。
除此之外,远征A1在核心部件上的创新,还包括了指尖传感器末端的视觉闭环,基于强化学习的运控算法等。
可以说,正是这一系列的创新,赋予了其自如、灵活的运动能力。
但如果想与传统机器人拉开差距,仅仅有一幅灵巧的身躯是不够的。
在AI技术日新月异的当下,一个具备高度智能的“大脑”,就成了具身机器人必备的组成部分。
02 更智慧的大脑
如果要为传统机器人,与当下新出现的具身机器人划一个明确的分水岭,那这样的分水岭,则无疑是大模型技术的应用。
传统的机器人,指的是那些主要依靠预先编程和固定规则来工作的机器人,它们通常只适合于重复性、确定性和简单性的任务,例如工业生产线上的装配、搬运、焊接等。
在大模型兴起之前,传统机器人在执行各种复杂任务时,往往都存在着各种局限与短板。
例如:由于缺乏自适应能力,传统的机器人很难应对环境和任务的变化,它们需要经常重新编程和调整,才能适应新的情况。
倘若要让传统的机器人从盒子里取出一个物体,就必须事先告诉它盒子和物体的位置、形状、大小、重量等信息,否则它可能无法完成任务。
而大模型与机器人技术的结合,则打破了这以往的限制与弊端。
具备强大的语义理解、逻辑推理、图像识别的超大参数大模型,不仅可以让机器人编排整个任务,还能动态调整任务。
比如,让机器人把桌上垃圾扔到垃圾桶里,不再需要告诉它垃圾是什么、垃圾桶是什么,所有的知识都来自预训练GPT的模型。
凭借着庞大的先验知识库和通识理解能力,机器人就能原有的能力泛化到更通用的场景中。
除此之外,在稚晖君看来,大模型对于机器人最重要的价值,就是复杂语义多级推理能力,所谓的“思维链”。
例如,如果要让一个机器人去厨房做一盘煎蛋,它就需要通过思维链来理解煎蛋的定义和制作方法,包括所需的原料、工具、步骤等。
同时,它还要分析当前的环境和状态,包括厨房的布局、物品的位置,规划出一条最优路径。
最后,则是按照预设的程序或者实时的反馈,完成打蛋、下锅等操作。
这种“思维链”能力,可以让机器人通过一句简单的指令,在真实世界中执行一系列复杂的任务。而这正是传统机器人走向通用机器人的曙光。
也正因如此,远征A1除了可以在汽车产线中从事底盘装配、外观检测等传统工作外,一个最大的突破,就是具备了面向C端的陪护和照看功能。
在家庭场景中,远征A1,不但可以在烹饪场景中磕鸡蛋,还能照顾老人、帮助老人吃药,还能帮孩子辅导功课。
通过其强大的语义理解、逻辑推理、图像识别等能力,大模型可以为机器人提供一个统一和高效的思维链框架,使其能够在海量的数据上学习通用和特定的知识、技能,并在不同的任务上进行迁移和泛化。
03 市场前景
那么,在具备了更灵活的运动能力、和更强的泛化性、通用性后,具身机器人的市场前景究竟如何?
或许,从各个科技巨头对该领域的相关布局中,我们就可看到一些端倪。
2022年8月,特斯拉宣布将在该年特斯拉AI day上发布全尺寸仿生人形机器人Optimus 。
同月,小米全尺寸人形机器人CyberOne正式发布。宣传片中,昵称为「铁大」的机器?能够独立行走、弯腰,完成抓取等简单动作。
而今年6月,腾讯发布了旗下机器人工作室Robotics X研发的四足机器人Max的最新视频。
其自主研发的多模态四足机器人“机器狗Max”再度得到升级,动作、行为都更加接近真实动物。
同样的,近期华为也成立了“极目机器”,布局机器人与智能制造,注册资本8.7亿,经营范围包含电子元器件制造、工程和技术研究和试验发展等。
种种迹象表明,众多巨头科技公司纷纷看好仿生机器人,行业正火热发展中。
实际上,人形AI机器人的兴起,并非仅仅是由于大模型的“火热”所致,而是科技发展的内在规律。
正如个人终端从台式电脑到个人电脑,再到手机的发展趋势一样,每一代终端的迭代,都意味着人类将更多的功能,集合到了统一的平台中。
时至今日,手机几乎成了这样一个平台的终极形态,因为其在一块小小的屏幕中,集合了人们日常所需的购物、视频、社交、学习等各种功能。
然而,人形AI机器人的出现,则填补了此前所有平台都无法弥补的空缺:即与真实的物理世界互动的能力。
也正因如此,巨头们相继推出机器人产品,并非赶热点,而更多是之前即有的布局。
既然如此,在这场新的产业竞争格局中,各个入场玩家们的潜力和竞争态势究竟怎样?
此前,科技媒体量子位,从量产和资本能力两方面,对目前行业内玩家及现状进行了分析,并绘制了一个颇为清晰的象限图。
按照这样的划分,国内机器人领域的各个玩家,大致可分为三个象限。
第一象限,主要是有强劲资本?撑的明星企业,如腾讯、小米和大疆等。这类企业,往往拥有雄厚的资金、技术,并且具备可观的量产能力,可以在没有量产压力的情况下,不计成本研发原型机,推动行业技术发展。
第二象限,则是有潜力有技术的小型公司,这样的企业通常都具有?校背景,并且产品专注于某一领域。如从机器宠物的角度切入的大象机器人,以及专注与航天、军工等科研领域的钢铁侠科技。
而第三象限,则是产品未实现量产,但却因资本于对其技术力的高度信任,而获得大量投资的企业,如开篇提到的智元科技。
从这样的产业格局来看,国内的机器人企业,已经涵盖了从高到低,从2B到2C的完整生态链。
而在大模型的赋能下,一个可预见的产业趋势,则是机器人会在2C端的服务领域,向着更多元的方向发展。
此前,清华?学交叉信息研究院教授陈建宇曾说:“人形机器?将是下一代终端。 具身智能机器人的出现才会是真正的「iPhone」时刻。”
在国内机器人百花齐放的生态下,具身机器人的发展,就像一场自然界充满了未知与惊奇的进化,当参与进化的个体数量足够多时,神奇的突变也终将会在某一刻显现。