GPT-4诞生1年，OpenAI把它放到了机器人上

2024.10.16 新火种

作者：一号
    编辑：美美
    ChatGPT拥有了身体，机器人也有了灵魂。
    从OpenAI在去年3月14日拿出GPT-4后，已经过了整整一年。显然，在GPT-4诞生之后的这一年，一切都迭代得太快了，从GPT-4展现多模态能力，到千行百业都在谈论AI，再到Sora引爆AI生成视频的市场。
    资深机器人专家Eric Jang在不久之前还预言，“ChatGPT曾在一夜之间出现。我认为，有智慧的机器人技术也将如此。”
    他或许没错，在一年后的今天，一家名为Figure的公司在X上上传了一段人形机器人的视频。

    在视频中，Figure的人形机器人Figure 01，能够完全与人类流畅对话，理解人类的想法，同时根据理解进行抓取和放置的操作，并解释自己这么做的原因。而这只是OpenAI宣布和Figure共同合作推进人形机器人领域前沿的第十三天。

    这段Demo迅速吸引了广大网友的眼球，有人感叹，AGI的曙光似乎就在眼前了。
    没弄虚未作假，这些都是机器人自学的
    视频发布之后，Figure AI的掌门人Brett Adock，在X上来了一番精彩解读。
    视频中Figure展示了端到端神经网络（end-to-end neural networks）框架下与人类对话的应用。在此过程中没有任何远程操作。并且机器人的速度也有了显著的提升，开始接近人类的速度。

    那具体是怎么做到的呢？
    首先，Figure AI会将机器人摄像头拍摄到的图像和通过板载麦克风记录到的语言转录成文本输入到一个由OpenAI训练的大模型中，这是一个能够同时处理图像和文本信息的模型。
    然后，这个模型会处理整个对话的历史记录，包括以往的图像，然后通过文本到语音的方式，生成语音进行响应，向人类回话。

    这个模型还同时负责决定执行哪种已学习的闭环行为来响应给定的命令，它将特定的神经网络权重加载到GPU上，并执行相应的策略。
    这样做之后，Figure 01就有了很多有趣的新功能。例如描述它周围的环境、在做决定的时候运用常识进行推理，并且会理解一些含糊的高级指令，例如当人类说“我饿了”的时候，它会将桌面上唯一的食物——苹果，递给人类，并用简单的英语说明它为什么这么做。
    而关于Figure 01通过学习掌握的精细双手操作技能，这些所有的行为都是由神经网络的视觉-运动转换器策略驱动，能将像素直接映射到动作。这些网络以每秒10帧的速率接收机载图像，并以200hz的频率生成24-DOF动作，包括手腕姿势和手指关节角度。
    简单来说，预训练模型会首先对图像和文本进行常识推理，然后给出动作计划；接着，机器人再基于已学习的视觉-动作执行策略，做出快速的反应行动。同时通过全身控制器确保动作的安全性和稳定性，保持机器人的平衡。
    Figure，众人看好的具身智能公司
    人工智能的后半场，以机器人为代表的具身智能将成为新的智能增长点。
    英伟达CEO黄仁勋曾说，“具身智能将引领下一波人工智能浪潮”。这样的观点正在被越来越多的公司所赞同。当前，生成式AI的竞争已经从连续对话走向长文本以及多模态，各家科技公司和机构也开始投资具身智能。
    而这家名为Figure的具身智能公司，除了被OpenAI看好，还拿到了多方的投资，成为了硅谷备受关注的新星。

    公开资料显示，Figure成立于2022年，成立之初就瞄准了通用人形机器人领域。在3月1日，它宣布完成了惊人的6.75亿美元B轮融资，公司估值达到了26亿美元。而它的投资方，几乎占据了硅谷的半壁江山。除了OpenAI，微软、英特尔、英伟达、亚马逊创始人贝索斯以及“木头姐”等，都是它的投资方。

    而在获得融资之后，Figure也没有让人失望。在今年1月，它们的产品Figure就通过端到端神经网络，仅用10小时就掌握了制作咖啡的技能。1个月后，它又展示了把箱子搬运到传送带的新技能，而现在，它又学会了理解人类的意图。

    当然，在商业化的道路上，Figure也在积极探索。目前，Figure已经和宝马制造公司签订了商业协议，Figure 01已经开始在宝马位于南卡罗来纳州斯帕坦堡的汽车工厂接受测试。
    从ChatGPT到Figure 01，OpenAI想的依旧是AGI
    尽管OpenAI在2021年夏天悄悄关闭了其机器人团队，但显然，OpenAI对于机器人领域的关注并未减少。
    除了Figure，OpenAI在一年之前就投资了挪威一家名为1X Technologies的机器人制造商。与此同时，OpenAI还被彭博社爆料，说它投资了一家新成立的机器人AI公司Physical Intelligence，他们的创始团队分别来自谷歌研究团队、加州大学伯克利分校以及斯坦福大学教授等。而这家公司也是研究未来能够成为通用机器人系统的人工智能。
    显然，将OpenAI大模型融入Figure 01是OpenAI有意的战略布局。

    对于计算机视觉、机器人等领域来说，具身智能是一个很有挑战的目标：如果AI智能体（机器人）不仅能够接收来自数据集的静态图像，还能够在三维的世界中，无论是虚拟还是真实的，四处移动并与环境进行交互，那么我们将能迎来一次重大的突破，即从识别图像等机器学习的简单能力，转变到学习如何通过多个步骤执行复杂的类人任务。
    而当机器人能够执行类人任务后，通过数据的迭代升级，将会越来越像人。而到了那个时候，也许AGI能够取得突破，这也是OpenAI一直以来的目标。
    一年之前，OpenAI发布了GPT-4，向世界证明了大模型的威力，而在一年后的今天，Figure 01的表现，也许会是机器人领域的GPT-4时刻。不过，正与OpenAI争得不可开交的马斯克，他的Optimus也是机器人领域的佼佼者，这两者之间还会有什么样的故事，我们拭目以待。