具身智能，开启机器人纪元

2024.05.02 阿尔法工场

导语：?形机器?将是下?代终端。具?智能机器?的出现才会是真正的「iPhone」时刻。
    时至8月，火热了半年之久的AI赛道，已俨然显示出了降温之势。
    可就在这个关头，由号称华为天才少年——稚晖君打造的人形AI机器人——「远征A1」却赫然登场，用一系列亮眼的特点，振奋了已显冷淡的AI赛场。
    舞台之上，这个迈着小碎步入场的机器人，引来了整个行业的关注。
    而这个由智元机器人（Agibot）发布的具身智能机器人，之所以能在业内引起如此大反响，则是因为其具备了最新的AI大模型能力。
    根据稚晖君在发布会上展示的内容，灵巧自如的远征A1，不但能做家务、制备实验样本，甚至还能胜任看护老人这类需要“体贴”的工作。
    那么，这个看似“面面俱到”的AI机器人，究竟是如何在不同环境中，胜任各种复杂工作的？
    其所代表的AI+具身机器人赛道，是否真的代表了未来AI的方向？抑或只是像元宇宙那样，成为一个难以落地的“概念化”产品？
    01 “人形”的必要性
    在讨论人形机器人的未来之前，有一个需要明确的问题是：为什么人类总是倾向于将机器人设计成人形？
    对于这个问题，稚晖君表示，原因就在于“从第一性原理出发，人形双足机器人是人类环境中最为通用的终极形态！”
    换句话说，机器人要想真正进入人类的生活，就得适应各种为人体形态量身打造的场景、设备、任务。
    例如，具身机器人如果想帮人类操作仪器，抓握东西，那就必须具备人类那样灵巧的手指；
    如果它想在城市环境中，迈过各种楼梯、台阶，那就得具备和人类一样能弯曲的膝盖。
    而要想实现这样的灵活性、协调性，就必须在机器人的硬件构成上，进行一系列重要的设计。在这方面，智元机器人较为独特的技术之一，就是谐波一体关节。
    这是机器人的传动装置，用来降低转速、增大扭矩等，相当于人类的「关节」。
    一般来说，机器人的结构和关节，决定了它的自由度，
    而自由度是指机器人的运动能力，也就是机器人能够独立控制的运动变量的个数。
    自由度越高，机器人的运动越灵活，越能适应各种复杂的环境和任务。
    目前，远征A1的自由度超过了49个，手部有12个主动自由度。
    而相较之下，马斯克的“擎天柱”人形双足机器人全身有200多个自由度，手部27个自由度。
    虽与世界顶尖机器人有着一定差距，但六个月的时间，能做到这个地步，也实属可观了。
    而除了自由度之外，另一个衡量人形机器人的指标，就是其关节的“控制扭矩”，
    控制扭矩主要决定了机器人的运动力量，也就是机器人能够产生多大的转动力来驱动关节和执行器。
    如果类比成人类的能力，相当于人的肌肉力量，就是肌肉产生多大的推拉、举起、扭转等动作的能力。
    在这方面，远征A1一体化自研的矢量控制驱动器，整体的控制扭矩可以容易地超过350Nm。
    而这样的控制扭矩，则是由智元机器人自研的PowerFlow关节电机造就的。

    PowerFlow关节电机创新性的液冷循环散热系统，可以有效地将电机内部产生的热量通过液体传导到外部的散热器，从而降低电机的温度和阻抗，提高电机的效率和稳定性。
    这样，电机就可以在更高的功率密度和扭矩下运行，而不会过热或损坏。
    同时，PowerFlow关节电机还采用了径向磁通的外转子电机方案。
    因为在这样的方案中，转子组件固定在内部，并且磁场方向沿着半径方向分布，磁场能量更集中，绕组和铁芯的散热效果更好。

    除此之外，远征A1在核心部件上的创新，还包括了指尖传感器末端的视觉闭环，基于强化学习的运控算法等。
    可以说，正是这一系列的创新，赋予了其自如、灵活的运动能力。
    但如果想与传统机器人拉开差距，仅仅有一幅灵巧的身躯是不够的。
    在AI技术日新月异的当下，一个具备高度智能的“大脑”，就成了具身机器人必备的组成部分。
    02 更智慧的大脑
    如果要为传统机器人，与当下新出现的具身机器人划一个明确的分水岭，那这样的分水岭，则无疑是大模型技术的应用。
    传统的机器人，指的是那些主要依靠预先编程和固定规则来工作的机器人，它们通常只适合于重复性、确定性和简单性的任务，例如工业生产线上的装配、搬运、焊接等。
    在大模型兴起之前，传统机器人在执行各种复杂任务时，往往都存在着各种局限与短板。

    例如：由于缺乏自适应能力，传统的机器人很难应对环境和任务的变化，它们需要经常重新编程和调整，才能适应新的情况。
    倘若要让传统的机器人从盒子里取出一个物体，就必须事先告诉它盒子和物体的位置、形状、大小、重量等信息，否则它可能无法完成任务。
    而大模型与机器人技术的结合，则打破了这以往的限制与弊端。
    具备强大的语义理解、逻辑推理、图像识别的超大参数大模型，不仅可以让机器人编排整个任务，还能动态调整任务。

    比如，让机器人把桌上垃圾扔到垃圾桶里，不再需要告诉它垃圾是什么、垃圾桶是什么，所有的知识都来自预训练GPT的模型。
    凭借着庞大的先验知识库和通识理解能力，机器人就能原有的能力泛化到更通用的场景中。
    除此之外，在稚晖君看来，大模型对于机器人最重要的价值，就是复杂语义多级推理能力，所谓的“思维链”。
    例如，如果要让一个机器人去厨房做一盘煎蛋，它就需要通过思维链来理解煎蛋的定义和制作方法，包括所需的原料、工具、步骤等。
    同时，它还要分析当前的环境和状态，包括厨房的布局、物品的位置，规划出一条最优路径。
    最后，则是按照预设的程序或者实时的反馈，完成打蛋、下锅等操作。
    这种“思维链”能力，可以让机器人通过一句简单的指令，在真实世界中执行一系列复杂的任务。而这正是传统机器人走向通用机器人的曙光。
    也正因如此，远征A1除了可以在汽车产线中从事底盘装配、外观检测等传统工作外，一个最大的突破，就是具备了面向C端的陪护和照看功能。
    在家庭场景中，远征A1，不但可以在烹饪场景中磕鸡蛋，还能照顾老人、帮助老人吃药，还能帮孩子辅导功课。
    通过其强大的语义理解、逻辑推理、图像识别等能力，大模型可以为机器人提供一个统一和高效的思维链框架，使其能够在海量的数据上学习通用和特定的知识、技能，并在不同的任务上进行迁移和泛化。
    03 市场前景
    那么，在具备了更灵活的运动能力、和更强的泛化性、通用性后，具身机器人的市场前景究竟如何？
    或许，从各个科技巨头对该领域的相关布局中，我们就可看到一些端倪。
    2022年8月，特斯拉宣布将在该年特斯拉AI day上发布全尺寸仿生人形机器人Optimus 。
    同月，小米全尺寸人形机器人CyberOne正式发布。宣传片中，昵称为「铁大」的机器?能够独立行走、弯腰，完成抓取等简单动作。

    而今年6月，腾讯发布了旗下机器人工作室Robotics X研发的四足机器人Max的最新视频。
    其自主研发的多模态四足机器人“机器狗Max”再度得到升级，动作、行为都更加接近真实动物。
    同样的，近期华为也成立了“极目机器”，布局机器人与智能制造，注册资本8.7亿，经营范围包含电子元器件制造、工程和技术研究和试验发展等。
    种种迹象表明，众多巨头科技公司纷纷看好仿生机器人，行业正火热发展中。

    实际上，人形AI机器人的兴起，并非仅仅是由于大模型的“火热”所致，而是科技发展的内在规律。
    正如个人终端从台式电脑到个人电脑，再到手机的发展趋势一样，每一代终端的迭代，都意味着人类将更多的功能，集合到了统一的平台中。
    时至今日，手机几乎成了这样一个平台的终极形态，因为其在一块小小的屏幕中，集合了人们日常所需的购物、视频、社交、学习等各种功能。
    然而，人形AI机器人的出现，则填补了此前所有平台都无法弥补的空缺：即与真实的物理世界互动的能力。

    也正因如此，巨头们相继推出机器人产品，并非赶热点，而更多是之前即有的布局。
    既然如此，在这场新的产业竞争格局中，各个入场玩家们的潜力和竞争态势究竟怎样？
    此前，科技媒体量子位，从量产和资本能力两方面，对目前行业内玩家及现状进行了分析，并绘制了一个颇为清晰的象限图。
    按照这样的划分，国内机器人领域的各个玩家，大致可分为三个象限。

    第一象限，主要是有强劲资本?撑的明星企业，如腾讯、小米和大疆等。这类企业，往往拥有雄厚的资金、技术，并且具备可观的量产能力，可以在没有量产压力的情况下，不计成本研发原型机，推动行业技术发展。
    第二象限，则是有潜力有技术的小型公司，这样的企业通常都具有?校背景，并且产品专注于某一领域。如从机器宠物的角度切入的大象机器人，以及专注与航天、军工等科研领域的钢铁侠科技。
    而第三象限，则是产品未实现量产，但却因资本于对其技术力的高度信任，而获得大量投资的企业，如开篇提到的智元科技。

    从这样的产业格局来看，国内的机器人企业，已经涵盖了从高到低，从2B到2C的完整生态链。
    而在大模型的赋能下，一个可预见的产业趋势，则是机器人会在2C端的服务领域，向着更多元的方向发展。
    此前，清华?学交叉信息研究院教授陈建宇曾说：“人形机器?将是下一代终端。具身智能机器人的出现才会是真正的「iPhone」时刻。”
    在国内机器人百花齐放的生态下，具身机器人的发展，就像一场自然界充满了未知与惊奇的进化，当参与进化的个体数量足够多时，神奇的突变也终将会在某一刻显现。