【分享】为什么OpenAI下一步是Agent? 关于Agent你需要知道的一切

2024.10.07 阿尔法工场

单Agent不就是生物学中的细胞吗？多Agent不就是一个物种部落吗？

    大家好。我是甘润泽，毕业于硕士新加坡国立大学（NUS），深度学习方向，现在是AI Agent开发者、全栈工程师。
    很高兴在AI新智能的俱乐部内给大家做这次分享。我这次分享的主题是《为什么OpenAI下一步是Agent? 关于Agent你需要知道的一切》
    01 什么是Agent？
    什么是AI Agent？想象一下你设计了一个电子游戏，比如马里奥赛车。马里奥就像一个 AI Agent，他需要在整个游戏过程中不断地做出决策，比如何时加速，何时转弯，何时跳跃，以此来躲避障碍，超越其他车手，最终获得胜利。

    在这个例子中，整个游戏环境以及其他车手的动作等，都组成了这个Agent的环境。Agent会根据这些信息，做出最佳的决策。比如，如果前方的道路正在向左转，那么 Agent 就会决定向左转弯。
    AI Agent的本质是一个可以感知其环境、在给定目标下做出决策并采取行动的系统。这些决策是基于它对环境的理解，比如它的目的地在哪，它的位置在哪，周围有哪些障碍等。
    另外，AI Agent还有一个重要的特性，那就是它可以“学习”。也就是说，它可以通过与环境交互，不断改进自己的决策过程。比如，在多次游戏后，它可能会学会如何更好地避开障碍，或者找到更好的赛道线路。
    总的来说，AI Agent就是那些能够感知、理解环境，然后做出决策，采取行动，并不断学习和进化的AI系统。
    02 为什么Agent是接下来AI赛道的主要发展方向？
    下一阶段大语言模型的发展，目前来看是两条发展方向，一条是“向下发展”更新整个底层系统；另一条是“向上发展”，也即从更高维度，更智能化，更自动化，增加复杂性的方向，即Agent方向来提升大语言模型的生产力。一个标准的单个Agent模块包括记忆，规划，执行，反思模块，比大语言模型的交互方式更加具备智能性。

    此外，人们在不断添加非常有吸引力的功能，不断地扩充想象力的边界，一些很酷的想法包括联网搜索引擎，运行编译器功能，这些功能在最近几个月的研究中被一个个实现。
    虽然单个Agent功能强大，上手简单，OpenAI GPTs本质上就是关于单个Agent的未来人工智能商业模式，开发者在GPTs上开发各式各样的Agent，用户买下心仪的GPTs，随后OpenAI和开发者共享收益。这是一种集合社群，开发者，平台，用户的充满想象力的商业模式。
    但是这还远远不够，对于未来，我们的想象力还可以往更远的地方发散。
    就比如，GPTs里面的Agent能不能自我学习，自我进化？
    03 向上：黑盒愈黑？
    近期OpenAI的Q＊项目曝光，本质上是创造一种能够自己生产新数据，自我学习进化的Agent，这意味者人类将更加难以掌控，我称之为“黑盒愈黑”。

    神经网络本身就处于黑盒状态，一个能离开人类监督实现自我进化的黑盒，其不确定性会大大增加，这个“黑盒”也会更加“黑”。
    从好的一面看，一个会自我学习的Agent，恰恰是通往aging最有希望的一条路。
    人们探索aging已经有近百年的历史，而希望的曙光从来没有像今天这样离我们这样近，与之伴生的是巨大的不确定性：一个人们越来越难以理解但是越来越强大的黑盒。
    04 Agent的两个小场景
    接下来，我将介绍几个最有代表性的Agent项目，来帮助我们更好的理解Agent。
    第一个是爆火的AutoGPT。

    AutoGPT因为在大语言模型基础上的全自动流程和联网功能而声名大噪。在AutoGPT中，你只需要给它设定一个大目标：比如，为我制作一份创业计划。它就可以通过大语言模型给出解决方案，并借助联网功能给出一份报告。
    实际上，它给予了人类充分的想象空间。一个月前，AutoGPT的团队获得了1200万美元的融资，实际上是非常振奋人心的：我们正在追求的，不就是服务于人类的高级自动化系统吗？
    斯坦福小镇是另一个火爆全球的项目。斯坦福小镇的创作者们在沙盒世界中放置了25个Agent，它们有自己的初始设定，Agent之间用自然语言对话，随后开始了为期两周的实验。注意这里的周是指游戏中的时间：创建者为这个世界设置了时间规则，Agent在里面的活动将花费时间。

    人们之所以为这个项目感到惊讶，是因为大语言模型+沙盒世界的无尽想象力，也是因为Agent的交互出现了人类意料之外的现象：Agent们自己创办了派对，并且它们的人际关系变得更加复杂了。
    斯坦福小镇是一个成功的多Agent系统在沙盒世界中的模型，其具有巨大的想象力空间：游戏世界，真实世界和实验中的沙盒世界区别又有多大呢？
    第三个爆火的项目是CHATDEV。这是一家专门开发AI聊天机器人的公司，团队里有各种各样的AI Agent角色，比如像首席执行官、程序员大牛、测试工程师和设计达人。
    人类用户只需要告诉他们想要做什么——比如说，“我想要定制一个五子棋游戏”，然后他们的AI Agent们就会开始围绕这个任务进行讨论，彼此交流，最后会生成一份完整的软件解决方案，包括源代码、环境依赖和用户手册等等。

    我们知道软件开发是一个充满复杂决策的过程，需要很多细节的考虑和咨询。但现在，深度学习的新技术已经开始在软件开发的各个阶段进行改进，从根本上改变了我们开发软件的方式。
    在CHATDEV这个公司中，他们采用了所谓的瀑布模型，也就是将软件开发的过程分为四个阶段：设计阶段、编码阶段、测试阶段和文档编写阶段。在每个阶段中，都有专门的AI Agent团队来参与和协作，像是虚拟的程序员、代码审查员和测试工程师，他们会互相交流、合作，形成一个连贯的工作流。
    在这个聊天链中，聊天机器人会将每个阶段的任务划分成一些小任务，然后各自去完成。
    这个过程两个好处：一是可以有效地解决问题，因为机器人们会在聊天中提出并验证解决方案；二是任务分解有助于节省时间和成本。
    比如说，通过CHATDEV，他们能够在七分钟内完成整个软件开发过程，花费只有不到一美元。这要是让人做，可能需要几天，甚至几周才能完成。这就是AI的力量，也是CHATDEV为我们展示的软件开发的未来。
    上面三个项目向我们展示了三个极具想象力的维度：AutoGPT展示了自动化与大语言模型的魅力（也是Agent的开始），在AutoGPT中，你只需要不停的输入yes给予它权限即可，或者给予纠正。
    斯坦福小镇展示了多Agent沙盒世界的可能性，其核心本质也显现：多体的交互将在复杂性上进一步增长（一定程度上复杂性就是智能）。CHATDEV则是最为明显的多Agent帮助人类提高生产力，同时Agent编程也开启了潘多拉魔盒：它们自我进化的开始。
    05 Agent未来会如何发展？
    我认为Agent的最终结局将离不开下面问题的答案。
    计算机科学创造出的AI Agent，在某种程度上高度向生物学和社会学看齐：举个不恰当的比方，单Agent不就是生物学中的细胞吗？多Agent不就是一个物种部落吗？

    下面我列出来十四个Agent的问题，它描述了从多Agent走向AGI过程中必须回答的问题，我认为，其中每个问题背后都是巨大的想象空间：
    功能 Function：Agent如何工作？
    实体 Embodiment：它们是用什么做的？
    互动 Interaction: 它们之间如何交流？
    起源 Origin: 最初的Agent从何而来？
    继承 Heredity: 我们生来就拥有同样的Agent吗？
    学习 Learning: 我们如何产生新的Agent以及如何改变旧的Agent？
    特征 Character: 哪些类型的Agent最重要？
    权威 Authority: 当Agent之间出现分歧怎么办？
    意图 Intention: Agent如何产生需求和欲望？
    能力 Competence: Agent组合在一起能做哪些它们分开不能做的事？
    自我 Selfness: 是什么让Agent团结在一起或者产生人格？
    意义 Meaning: Agent怎样理解世界？
    感知 Sensibility: Agent如何产生感觉和情绪？
    意识 Awareness: Agent如何产生对其他事物或自我的意识？
    举其中的“权威”来说，目前人们的项目还没有进入到这一步：如果多个Agent之间起冲突了，谁该服从谁？如果人类和Agent起冲突了呢？
    如果一些人和一些人起冲突了，Agent会站在哪一边？是“力量”的一边还是“正义”的一边？人类如果不能处理好这些问题，我们就应该如达摩克里斯之剑一样保持警惕和恐惧。
    06 Agent与商业：重塑人类文明根基
    我认为用Agent的商业化，它的本质不仅仅是人类某个个体的获利，而是人类文明的根基重塑。
    一位美国教授认为，新的图灵检测方式将是：能否让一个自主的人工智能系统在人类世界中从10万美元赚到100万美元？而OpenAI 将AGI定义为在大多数有经济价值的任务中超越人类的自主系统。
    当多Agent系统正势不可当的狂奔在AGI的道路上时，不妨想象一个简单的场景：我们与超级Agent达成合作，共享创造的经济价值，这将是多么吸引人。
    另外一个基于现实的猜想是，经济价值上表现能够超越人类的Agent很有可能会经历从工作收入到资本收入的过程：前期通过创造产品，内容，服务从人类世界获取经济价值，后期发展到通过资本方式从人类世界获取经济价值。
    这又将引起另外一个严肃的问题：最终我们将给予AGI在人类社会中怎样的政治和社会地位？
    我们将如何看待AI 社会？是看作满足自己欲望的工具，还是平等的物种，还是人类的供养者？以及另外一个严肃的问题：哪些地区能够给予AI更高的社会和政治地位？哪些人或者地区能与AI的合作更加深入？