Agent狂飙300天

2024.04.14 数智前线

大模型能力快速发展，Agent形态还在快速演进，整个赛道仍处于早期。从AI的角色扮演走到模型能力专家化，还有多远？

文｜徐鑫

编｜任晓渔

大模型的世界不缺热点。

近日，OpenAI发布的Sora大模型引爆科技圈，大模型能力又一次迎来炸裂更新。而在底层大模型技术快速迭代之外，过去大半年里行业内的最热门话题当属AI Agent。

这也是个分歧和共识并存的领域，引发了从巨头到创业者和投资圈的共同关注。

分歧在于，到底什么才算Agent，人们的认知不一。比如OpenAI官方推出的GPTS到底算不算Agent，到底是自动化还是辅助式协作，人们看法有差别。另外，中文里它还有“代理”、“智能体”等不同提法。

而AI巨头、平台企业和各类创业公司用行动表达了对这一领域的看好，积极布局Agent开发平台、框架或应用。OpenAI无疑是风向标。OpenAI CEO山姆·奥特曼称，未来各行各业，每个人都可以拥有AI Agent。去年11月OpenAI发布自定义GPT，到今年1月GPT Store正式上线时，据称该平台已经有了超300万个GPTs。比尔盖茨还发长文指出，AI Agent将彻底改变人们使用计算机的方式。

在国内，百度、阿里、字节、智谱等一众企业都推出了各类Agent平台，也有不少企业从应用层发力，如360、澜码科技、实在智能等从安全、财务、人事等场景探索Agent落地。

Agent为什么会成为香饽饽？国内企业目前是如何切入Agent赛道？创业公司和平台企业的优劣势是什么？Agent距离真正改变生产生活，还有多远？

大佬都爱Agent

2024年被业界视作Agent落地元年。

上个月的2024CES上，被问及2024年AI领域可能有哪些重大突破时，吴恩达回答，大型语言模型到大型视觉模型的转变，自动化智能体（autonomous agents ）的崛起和边缘智能。

新年伊始，文生视频大模型Sora的爆火，视觉模型技术已迎来突破，这也让业界颇为期待Agent的应用和落地。

实际上过去大半年，Agent在大模型里的火爆有目共睹。去年下半年时，硅谷科技记者Matt Schlicht统计称，至少有100个项目在将Agent商业化。据一家投资机构不完全统计，他们观察到去年下半年有二十多个Agent项目完成融资。

也有人称，去年年中以后，大模型赛道上创业者和投资人的关注点一下子从模型本身转移到了Agent上。

而如果追溯当下这波Agent 热潮，不少人把去年三月底开始刷屏的AutoGPT视作开始。作为一个开源项目，AutoGPT创造了Github上的星标上涨记录。它由大语言模型驱动。用户用自然语言设定目标，AutoGPT能自动将目标分解成子任务，连接互联网或使用其他工具来实现目标。

与ChatGPT不同，用户使用AutoGPT时不需要频繁提问，只需要给AutoGPT设定一个一个AI名称、描述和目标，它就能自己完成项目。这一项目很快就在GitHub上成为顶流。

而Agent爆火也离不开AI巨头OpenAI 的添砖加瓦。

2023年年中，当时还是OpenAI联合创始人的Andrew Karpathy在一个开发者活动的发言被广为传播。“如果一篇论文提出了某种不同的训练方法，OpenAI内部会嗤之以鼻，认为都是我们玩剩下的。但是当新的AI Agent论文出来时，我们会十分认真且兴奋地讨论”。

Andrew Karpathy还指出，普通人、创业者和极客在构建AI Agents方面相比OpenAI这样的公司更有优势。

也是这一时间段，OpenAI 应用研发主管Lilian weng 在一篇博文里定义了基于LLM构建AI Agents的框架。她指出，Agent=LLM（大型语言模型）+记忆（Memory）+规划技能（Planning）+工具使用（Tool Use），其中，LLM是智能体的大脑，而记忆、规划和工具使用能力是关键组件。它也成为大模型时代Agent的经典定义。

到2023年11月，OpenAI DevDay上，OpenAI推出其官方Agent开发框架Assistant API，并宣布将推出GPT Store，Agent热潮进一步发酵。

同一时间段，比尔盖茨写了一篇长文看多Agent领域。他预言五年内，Agent将改变人们使用电脑的方式，颠覆软件产业。除了OpenAI和各路大佬动向不断，硅谷还涌现了大量的AI Agent创业项目或产品，比如BabyAGI、MetaGPT、GPT Researcher等。据云基础设施服务商E2B的不完全统计和分类，在编程、个人助手、生产力、财务等多个细分场景都有大量的开源和闭源项目。

巨头微软也推出了多类Agent 架构，以代码为中心的TaskWeaver，还有多Agent 框架 AutoGen。英伟达的研究人员则利用ChatGPT技术制作了一个智能体Voyager，它会自己玩《我的世界》，能完成游泳、采集植物、猎猪、开采金矿、建造房屋等操作。

除了单智能体类应用，还有多智能体类项目。最知名的多智能体项目当属斯坦福大学和谷歌合作的斯坦福小镇（Smallville ）开源实验。在这个实验中，研究人员创建了一个由25名智能体组成的虚拟小镇，并让其中一个策划一个情人节派对。这些智能体能彼此交流，按照设定做出相应的决策。

什么是Agent，为什么成为香饽饽？

从大佬到创业公司纷纷看好Agent，首先在于它延展了大模型的能力。

一位人工智能领域资深技术观察者介绍，当下，Agent的记忆、规划以及使用工具的能力都是在弥补大模型现在还比较弱的地方。Agent本质是以大模型为核心，扩展大模型的潜力，目标是成为强大的通用问题解决方案。

网易数帆CodeWave产品技术负责人就告诉数智前线，其实不用把Agent想得太复杂，它表现出来就像自动化操作，底层还是基于大模型的能力。OpenAI官方定义的它的几大能力里，比如使用工具，调用搜索引擎，外接数据或第三方API，实际上增强了大模型的能力。

致远互联高级副总裁蒋蜀革则判断，在企业级场景里应用中，Agent跟大模型的落地高度关联的。蒋蜀革认为，目前业界已经很务实，非常理性看待大模型的能力，光靠大模型落不了地。比如企业的数据、规则、业务上下文都非常重要，当下大语言模型提供不了外部的实时信息，也无法访问内部数据，这很难支撑企业内场景的应用。“而Agent 能够感知环境，感知上下文，自己做业务规划，结合企业的数据、知识、企业的业务系统去走。这个落地的框架是越来越清晰的。”

也有人把大模型比喻成大脑，而Agent的能力则让它多了四肢。实在智能的算法负责人欧阳认为，大模型和Agent的最大区别就在于Agent对于工具的使用，Agent是大模型进一步落地的必然选择，比如在智能客服、文案的生成类任务时，大语言模型本质上还是在意图理解和对话生成的能力，但在真正的企业应用场景里，对话类任务只占日常工作中比较少的一部分。

许多工种需要操作各类业务系统，完成指定业务流程。比如财务要操作财务类软件，完成报税报销和财务稽核工作；而法务要审核很多合同，起草法务文件，这些都要跟大量的业务系统打交道。“在这些场景里，只有大模型，相当于有一个非常智能的大脑，但是它没有没有手脚去真正操作，因此大模型和各类自动化工具，例如RPA（机器人流程自动化）等，就存在一个很好的结合点”，欧阳说。

另外，业界也看中Agent能够与环境互动的能力，它能理解目标，拆解任务，并且调用工具执行任务。原来一些步骤和流程无法按照一个复杂的任务线来串起来，Agent以大语言模型作为一切任务的中心，就可以处理复杂的任务了。

澜码科技创始人兼CEO周健认为，传统的软件需要人去适应机器，Agent最核心的特点是它能对环境有感知，并且跟环境互动。以RPA为例，作为传统的自动化工具，RPA能实现某些步骤的自动化作业，但这些能被自动化的步骤非常有限。只要该步骤的业务上下文和业务理解的规则上稍微复杂一点，RPA就很难完成。比如金融行业信贷审核流程可能涉及到上百个步骤，RPA能够去自动化完成的只有几个。

而大模型实际上提供了极其便利的语言理解能力及推理能力。因为有了语言理解能力，其实人与机器的互动模式就变得更灵活，机器可以适应人。“能够被自动化的业务步骤数量大大增加，能形成规模化的生产力。”周健说。

正如比尔盖茨认为，Agent未来会变成一个非常普遍的存在，改变人们使用电脑的方式，颠覆软件行业，也有不少行业人士认为，Agent正在引发人和机器互动的范式变迁。

一位大厂技术高管认为，新范式变迁下，总会带来平台级的机会和新的入口，这其实会给很多创业公司带来新的机会。这也是从行业巨头到创业者及投资市场普遍比较兴奋的原因。

国内企业动作频频

范式变迁的潜在机遇也吸引了国内的一大批企业，大厂、AI公司和新兴创业团队都积极布局这一赛道。

根据数据前线不完全统计，目前不同角色进入市场的布局重点不一。

一类是平台模式。手持自研大模型的厂商如阿里和百度都推出了智能体开发平台。阿里达摩院的魔搭社区推出ModelScopeGPT，百度的灵境矩阵平台全新升级为文心大模型智能体平台。对这两家既有自研大模型，同时有云计算业务的企业而言，培育和完善Agent的开发者生态符合其定位和需求。

也有一众企业对标OpenAI的GPT Store，面向更广泛人群，推出可快速生成Agent的智能体商店，比如昆仑万维、钉钉、智谱AI、字节等。面向泛C端市场推出智能体商店，看中的自然是Agent的入口属性和对应用生态的变革。钉钉总裁叶军在钉钉7.5版本发布会上就断言，AI Agent已经成为当下最佳AI应用入口，钉钉的目标是成为低门槛、高频和开放的AI助理平台，他还表示，未来三年，要有1000万个AI助理在钉钉上产生。

头部云厂商里，手握自研大模型的企业还有华为和腾讯，这两家企业在Agent领域也有动作。它们的技术研究团队分别都联合大学发表了专门的论文，发布了各自的Agent框架。

去年12月，腾讯和德州大学达拉斯分校的研究团队合作开发的名为AppAgent的项目，进入公众视野。该项目希望可以通过自主学习和模仿人类的点击和滑动手势，在手机上执行各种任务，有人称它相当于手机上的智能“按键精灵”。而华为方面，华为诺亚方舟实验室与伦敦大学学院（UCL）、牛津大学的团队在去年12月底发表论文，提出了一种通用框架模型盘古Agent，用于将结构化推理整合到AI Agents中并进行学习。

除了智能体商店和Agent开发框架上的布局，还有大量企业从企业级Agent应用和平台层发力。比如澜码科技、实在智能等厂商都希望帮助企业构建企业内的一站式Agent设计、使用和管理平台，同时这些企业也在一些先行场景里打造标杆Agent应用，形成示范效应。

“如果把大模型视作基础设施，目前它已经在横向整合，那么上面的PaaS层其实也会横向整合，企业内会出现一个Agent中间件的机会。”澜码科技的CEO周健认为。但由于行业仍然处于早期，这类平台当下的重点则在积极探索企业内应用场景，构建标杆应用，进而从应用层向中间件平台建设发力。

周健观察到，目前企业内Agent应用最容易切入和落地的，是在财务这类数字化程度比较高、有相应的国家标准化规范的场景，因为有比较明确的企业SOP流程规范或数据沉淀。目前澜码科技的企业级AI Agent和轻应用已经在一些企业先行落地应用。同时，澜码科技也在人事等不同场景寻找与Agent结合的方式。

也有一些企业和平台在成熟的业务板块里引进了基于大模型的Agent能力。比如网易数帆CodeWave就尝试将低代码平台和Agent的能力结合，来降低低代码工程师操作平台的难度。

该平台产品技术负责人介绍，他们的应用场景是利用Agent来完成自然语言输出逻辑的编写。这是低代码里应用非常高频，但是非常难操作的一个功能。一般简单的业务逻辑，可能需要半个小时左右编写，复杂点的需要耗时半天到一天。目前接入Agent的能力，能自动分析用户的诉求，并拆解成可执行的任务，完成相关的逻辑编写。用户只需确认即可，几分钟就能完成此前半天到一天的工作。

无论是平台还是创业团队，都已经开始啃起了Agent这块蛋糕。新浪潮下，一位AI行业资深人士认为，Agent能力的落地，尤其在应用层，大平台和创业团队可能站在的是同一个起跑线，考验不同企业对应用层能力的挖掘和场景及需求的洞察。

Agent落地缺什么？

“大模型能力还在快速发展，Agent目前是个在发展变化的概念，它的形态还在演进中。”一位ToB领域的资深人士告诉数智前线，整个赛道正处于早期。

有观点称，Agent本质是模型能力专家化，但当下它更像是AI的角色扮演，一个同质化基础大模型，通过一些Prompt加人设，Agent的行动要满足人设。Zilliz 合伙人兼产品总监郭人通此前在一个论坛上表示，后期Agent要成为行业专家，才具备核心价值。

那么，Agent如何从高中生升级到大学生及行业专家？业界普遍关注到领域模型或“世界模型”的重要性。

周健告诉数智前线，当下基于大语言模型的能力，Agent有与人互动、验证虚拟环境的可能性，但是Agent需要不同的领域模型或世界模型，才能完成对各类环境的建模和互动反馈。而这也是各类企业当下的的能力差异点，比如澜码科技就擅长业务流程的世界模型构建。

不管是专家知识还是领域模型建设，那些对企业内知识更为重视，有更好沉淀的组织相对走在前面。近年来，许多企业重视用数据驱动决策，未来企业内建设的各类指标库与Agent结合，有望提升Agent的智能程度。一些指标平台已经看到了空间，数智前线获悉比如大数据分析和指标平台kyligence就计划朝向Agent方向打造产品。

周健认为，除了那些已有的体系化积累，基于经验和小数据得来的知识，也是未来Agent落地必不可少的。例如如何评估财务的健康度，什么叫做应收账款比例过高，“高”在不同行业、不同企业定义和意义并不一样。过去各类组织较少花精力去数字化这部分知识，未来需要补齐。

网易CodeWave低代码平台技术负责人称之为AI友好。他举例目前CodeWave智能开发平台之所以快速能接入Agent能力，在自然语言逻辑编写效果不错，也是因为它们在代码语言上做了一些准备和限定。

代码生成技术此前遇到的很大问题在于，只能生成固定领域或者固定技术栈的代码，但其实Web开发实践中，前端后端技术栈非常多。

此前CodeWave智能开发平台构建了一种NASL语言，这种语言比较收敛，抹平了前后端的一些类型的差异，能够真正实现全栈可视化编写。去年大模型到来后，他们发现收敛的编程语言更利于AI的学习和训练以及生成。“这是意外之喜。统一编程语言的设计，对AI是非常友好的”。

大模型能力本身也对Agent的能力和形态产生影响。智谱CEO张鹏此前受访时就说，Agent的本源仍然是大模型的基础能力，大脑的智力水平足够高，才能谈理解、推理、规划和执行这些事。

一位Agent应用开发者告诉数智前线，一些基于GPT-4上能使用的能力，迁移到一些国内大模型上就不可用了，“这非常常见，其实也对Agent的实际落地造成了非常大的困扰。”这需要国内基础大模型厂商的共同努力。

而除了Agent的各种能力本身，实在智能Agent智能体项目核心算法负责人认为，安全机制的构建也必不可缺，“不仅需要官方定义的那几个能力，还需要安全性和多Agent之间的协同，才能在B端更好落地。目前这也是我们花了很大精力做的工作。”

2024年被周健视作Agent的元年。他认为，经过一年发展，大模型公司也在思考商业化问题，而大模型要落地，需要AI Agent公司来完成，因此，2024应用为王，行业要用各种各样的新应用，证明生产力确实是能够被大模型封装，走向智能。“某种程度上，整个行业需要一个爆款”。