Agent狂飙300天
数智前线
大模型能力快速发展,Agent形态还在快速演进,整个赛道仍处于早期。从AI的角色扮演走到模型能力专家化,还有多远?
文|徐鑫
编|任晓渔
大模型的世界不缺热点。
近日,OpenAI发布的Sora大模型引爆科技圈,大模型能力又一次迎来炸裂更新。而在底层大模型技术快速迭代之外,过去大半年里行业内的最热门话题当属AI Agent。
这也是个分歧和共识并存的领域,引发了从巨头到创业者和投资圈的共同关注。
分歧在于,到底什么才算Agent,人们的认知不一。比如OpenAI官方推出的GPTS到底算不算Agent,到底是自动化还是辅助式协作,人们看法有差别。另外,中文里它还有“代理”、“智能体”等不同提法。
而AI巨头、平台企业和各类创业公司用行动表达了对这一领域的看好,积极布局Agent开发平台、框架或应用。OpenAI无疑是风向标。OpenAI CEO山姆·奥特曼称,未来各行各业,每个人都可以拥有AI Agent。去年11月OpenAI发布自定义GPT,到今年1月GPT Store正式上线时,据称该平台已经有了超300万个GPTs。比尔盖茨还发长文指出,AI Agent将彻底改变人们使用计算机的方式。
在国内,百度、阿里、字节、智谱等一众企业都推出了各类Agent平台,也有不少企业从应用层发力,如360、澜码科技、实在智能等从安全、财务、人事等场景探索Agent落地。
Agent为什么会成为香饽饽?国内企业目前是如何切入Agent赛道?创业公司和平台企业的优劣势是什么?Agent距离真正改变生产生活,还有多远?
01
大佬都爱Agent
2024年被业界视作Agent落地元年。
上个月的2024CES上,被问及2024年AI领域可能有哪些重大突破时,吴恩达回答,大型语言模型到大型视觉模型的转变,自动化智能体(autonomous agents )的崛起和边缘智能。
新年伊始,文生视频大模型Sora的爆火,视觉模型技术已迎来突破,这也让业界颇为期待Agent的应用和落地。
实际上过去大半年,Agent在大模型里的火爆有目共睹。去年下半年时,硅谷科技记者Matt Schlicht统计称,至少有100个项目在将Agent商业化。据一家投资机构不完全统计,他们观察到去年下半年有二十多个Agent项目完成融资。
也有人称,去年年中以后,大模型赛道上创业者和投资人的关注点一下子从模型本身转移到了Agent上。
而如果追溯当下这波Agent 热潮,不少人把去年三月底开始刷屏的AutoGPT视作开始。作为一个开源项目,AutoGPT创造了Github上的星标上涨记录。它由大语言模型驱动。用户用自然语言设定目标,AutoGPT能自动将目标分解成子任务,连接互联网或使用其他工具来实现目标。
与ChatGPT不同,用户使用AutoGPT时不需要频繁提问,只需要给AutoGPT设定一个一个AI名称、描述和目标,它就能自己完成项目。这一项目很快就在GitHub上成为顶流。
而Agent爆火也离不开AI巨头OpenAI 的添砖加瓦。
2023年年中,当时还是OpenAI联合创始人的Andrew Karpathy在一个开发者活动的发言被广为传播。“如果一篇论文提出了某种不同的训练方法,OpenAI内部会嗤之以鼻,认为都是我们玩剩下的。但是当新的AI Agent论文出来时,我们会十分认真且兴奋地讨论”。
Andrew Karpathy还指出,普通人、创业者和极客在构建AI Agents方面相比OpenAI这样的公司更有优势。
也是这一时间段,OpenAI 应用研发主管Lilian weng 在一篇博文里定义了基于LLM构建AI Agents的框架。她指出,Agent=LLM(大型语言模型)+记忆(Memory)+规划技能(Planning)+工具使用(Tool Use),其中,LLM是智能体的大脑,而记忆、规划和工具使用能力是关键组件。它也成为大模型时代Agent的经典定义。
到2023年11月,OpenAI DevDay上,OpenAI推出其官方Agent开发框架Assistant API,并宣布将推出GPT Store,Agent热潮进一步发酵。
同一时间段,比尔盖茨写了一篇长文看多Agent领域。他预言五年内,Agent将改变人们使用电脑的方式,颠覆软件产业。除了OpenAI和各路大佬动向不断,硅谷还涌现了大量的AI Agent创业项目或产品,比如BabyAGI、MetaGPT、GPT Researcher等。据云基础设施服务商E2B的不完全统计和分类,在编程、个人助手、生产力、财务等多个细分场景都有大量的开源和闭源项目。
巨头微软也推出了多类Agent 架构,以代码为中心的TaskWeaver,还有多Agent 框架 AutoGen。英伟达的研究人员则利用ChatGPT技术制作了一个智能体Voyager,它会自己玩《我的世界》,能完成游泳、采集植物、猎猪、开采金矿、建造房屋等操作。
除了单智能体类应用,还有多智能体类项目。最知名的多智能体项目当属斯坦福大学和谷歌合作的斯坦福小镇(Smallville )开源实验。在这个实验中,研究人员创建了一个由25名智能体组成的虚拟小镇,并让其中一个策划一个情人节派对。这些智能体能彼此交流,按照设定做出相应的决策。
02
什么是Agent,为什么成为香饽饽?
从大佬到创业公司纷纷看好Agent,首先在于它延展了大模型的能力。
一位人工智能领域资深技术观察者介绍,当下,Agent的记忆、规划以及使用工具的能力都是在弥补大模型现在还比较弱的地方。Agent本质是以大模型为核心,扩展大模型的潜力,目标是成为强大的通用问题解决方案。
网易数帆CodeWave产品技术负责人就告诉数智前线,其实不用把Agent想得太复杂,它表现出来就像自动化操作,底层还是基于大模型的能力。OpenAI官方定义的它的几大能力里,比如使用工具,调用搜索引擎,外接数据或第三方API,实际上增强了大模型的能力。
致远互联高级副总裁蒋蜀革则判断,在企业级场景里应用中,Agent跟大模型的落地高度关联的。蒋蜀革认为,目前业界已经很务实,非常理性看待大模型的能力,光靠大模型落不了地。比如企业的数据、规则、业务上下文都非常重要,当下大语言模型提供不了外部的实时信息,也无法访问内部数据,这很难支撑企业内场景的应用。“而Agent 能够感知环境,感知上下文,自己做业务规划,结合企业的数据、知识、企业的业务系统去走。这个落地的框架是越来越清晰的。”
也有人把大模型比喻成大脑,而Agent的能力则让它多了四肢。实在智能的算法负责人欧阳认为,大模型和Agent的最大区别就在于Agent对于工具的使用,Agent是大模型进一步落地的必然选择,比如在智能客服、文案的生成类任务时,大语言模型本质上还是在意图理解和对话生成的能力,但在真正的企业应用场景里,对话类任务只占日常工作中比较少的一部分。
许多工种需要操作各类业务系统,完成指定业务流程。比如财务要操作财务类软件,完成报税报销和财务稽核工作;而法务要审核很多合同,起草法务文件,这些都要跟大量的业务系统打交道。“在这些场景里,只有大模型,相当于有一个非常智能的大脑,但是它没有没有手脚去真正操作,因此大模型和各类自动化工具,例如RPA(机器人流程自动化)等,就存在一个很好的结合点”,欧阳说。
另外,业界也看中Agent能够与环境互动的能力,它能理解目标,拆解任务,并且调用工具执行任务。原来一些步骤和流程无法按照一个复杂的任务线来串起来,Agent以大语言模型作为一切任务的中心,就可以处理复杂的任务了。
澜码科技创始人兼CEO周健认为,传统的软件需要人去适应机器,Agent最核心的特点是它能对环境有感知,并且跟环境互动。以RPA为例,作为传统的自动化工具,RPA能实现某些步骤的自动化作业,但这些能被自动化的步骤非常有限。只要该步骤的业务上下文和业务理解的规则上稍微复杂一点,RPA就很难完成。比如金融行业信贷审核流程可能涉及到上百个步骤,RPA能够去自动化完成的只有几个。
而大模型实际上提供了极其便利的语言理解能力及推理能力。因为有了语言理解能力,其实人与机器的互动模式就变得更灵活,机器可以适应人。“能够被自动化的业务步骤数量大大增加,能形成规模化的生产力。”周健说。
正如比尔盖茨认为,Agent未来会变成一个非常普遍的存在,改变人们使用电脑的方式,颠覆软件行业,也有不少行业人士认为,Agent正在引发人和机器互动的范式变迁。
一位大厂技术高管认为,新范式变迁下,总会带来平台级的机会和新的入口,这其实会给很多创业公司带来新的机会。这也是从行业巨头到创业者及投资市场普遍比较兴奋的原因。
03
国内企业动作频频
范式变迁的潜在机遇也吸引了国内的一大批企业,大厂、AI公司和新兴创业团队都积极布局这一赛道。
根据数据前线不完全统计,目前不同角色进入市场的布局重点不一。
一类是平台模式。手持自研大模型的厂商如阿里和百度都推出了智能体开发平台。阿里达摩院的魔搭社区推出ModelScopeGPT,百度的灵境矩阵平台全新升级为文心大模型智能体平台。对这两家既有自研大模型,同时有云计算业务的企业而言,培育和完善Agent的开发者生态符合其定位和需求。
也有一众企业对标OpenAI的GPT Store,面向更广泛人群,推出可快速生成Agent的智能体商店,比如昆仑万维、钉钉、智谱AI、字节等。面向泛C端市场推出智能体商店,看中的自然是Agent的入口属性和对应用生态的变革。钉钉总裁叶军在钉钉7.5版本发布会上就断言,AI Agent已经成为当下最佳AI应用入口,钉钉的目标是成为低门槛、高频和开放的AI助理平台,他还表示,未来三年,要有1000万个AI助理在钉钉上产生。
头部云厂商里,手握自研大模型的企业还有华为和腾讯,这两家企业在Agent领域也有动作。它们的技术研究团队分别都联合大学发表了专门的论文,发布了各自的Agent框架。
去年12月,腾讯和德州大学达拉斯分校的研究团队合作开发的名为AppAgent的项目,进入公众视野。该项目希望可以通过自主学习和模仿人类的点击和滑动手势,在手机上执行各种任务,有人称它相当于手机上的智能“按键精灵”。而华为方面,华为诺亚方舟实验室与伦敦大学学院(UCL)、牛津大学的团队在去年12月底发表论文,提出了一种通用框架模型盘古Agent,用于将结构化推理整合到AI Agents中并进行学习。
除了智能体商店和Agent开发框架上的布局,还有大量企业从企业级Agent应用和平台层发力。比如澜码科技、实在智能等厂商都希望帮助企业构建企业内的一站式Agent设计、使用和管理平台,同时这些企业也在一些先行场景里打造标杆Agent应用,形成示范效应。
“如果把大模型视作基础设施,目前它已经在横向整合,那么上面的PaaS层其实也会横向整合,企业内会出现一个Agent中间件的机会。”澜码科技的CEO周健认为。但由于行业仍然处于早期,这类平台当下的重点则在积极探索企业内应用场景,构建标杆应用,进而从应用层向中间件平台建设发力。
周健观察到,目前企业内Agent应用最容易切入和落地的,是在财务这类数字化程度比较高、有相应的国家标准化规范的场景,因为有比较明确的企业SOP流程规范或数据沉淀。目前澜码科技的企业级AI Agent和轻应用已经在一些企业先行落地应用。同时,澜码科技也在人事等不同场景寻找与Agent结合的方式。
也有一些企业和平台在成熟的业务板块里引进了基于大模型的Agent能力。比如网易数帆CodeWave就尝试将低代码平台和Agent的能力结合,来降低低代码工程师操作平台的难度。
该平台产品技术负责人介绍,他们的应用场景是利用Agent来完成自然语言输出逻辑的编写。这是低代码里应用非常高频,但是非常难操作的一个功能。一般简单的业务逻辑,可能需要半个小时左右编写,复杂点的需要耗时半天到一天。目前接入Agent的能力,能自动分析用户的诉求,并拆解成可执行的任务,完成相关的逻辑编写。用户只需确认即可,几分钟就能完成此前半天到一天的工作。
无论是平台还是创业团队,都已经开始啃起了Agent这块蛋糕。新浪潮下,一位AI行业资深人士认为,Agent能力的落地,尤其在应用层,大平台和创业团队可能站在的是同一个起跑线,考验不同企业对应用层能力的挖掘和场景及需求的洞察。
04
Agent落地缺什么?
“大模型能力还在快速发展,Agent目前是个在发展变化的概念,它的形态还在演进中。”一位ToB领域的资深人士告诉数智前线,整个赛道正处于早期。
有观点称,Agent本质是模型能力专家化,但当下它更像是AI的角色扮演,一个同质化基础大模型,通过一些Prompt加人设,Agent的行动要满足人设。Zilliz 合伙人兼产品总监郭人通此前在一个论坛上表示,后期Agent要成为行业专家,才具备核心价值。
那么,Agent如何从高中生升级到大学生及行业专家?业界普遍关注到领域模型或“世界模型”的重要性。
周健告诉数智前线,当下基于大语言模型的能力,Agent有与人互动、验证虚拟环境的可能性,但是Agent需要不同的领域模型或世界模型,才能完成对各类环境的建模和互动反馈。而这也是各类企业当下的的能力差异点,比如澜码科技就擅长业务流程的世界模型构建。
不管是专家知识还是领域模型建设,那些对企业内知识更为重视,有更好沉淀的组织相对走在前面。近年来,许多企业重视用数据驱动决策,未来企业内建设的各类指标库与Agent结合,有望提升Agent的智能程度。一些指标平台已经看到了空间,数智前线获悉比如大数据分析和指标平台kyligence就计划朝向Agent方向打造产品。
周健认为,除了那些已有的体系化积累,基于经验和小数据得来的知识,也是未来Agent落地必不可少的。例如如何评估财务的健康度,什么叫做应收账款比例过高,“高”在不同行业、不同企业定义和意义并不一样。过去各类组织较少花精力去数字化这部分知识,未来需要补齐。
网易CodeWave低代码平台技术负责人称之为AI友好。他举例目前CodeWave智能开发平台之所以快速能接入Agent能力,在自然语言逻辑编写效果不错,也是因为它们在代码语言上做了一些准备和限定。
代码生成技术此前遇到的很大问题在于,只能生成固定领域或者固定技术栈的代码,但其实Web开发实践中,前端后端技术栈非常多。
此前CodeWave智能开发平台构建了一种NASL语言,这种语言比较收敛,抹平了前后端的一些类型的差异,能够真正实现全栈可视化编写。去年大模型到来后,他们发现收敛的编程语言更利于AI的学习和训练以及生成。“这是意外之喜。统一编程语言的设计,对AI是非常友好的”。
大模型能力本身也对Agent的能力和形态产生影响。智谱CEO张鹏此前受访时就说,Agent的本源仍然是大模型的基础能力,大脑的智力水平足够高,才能谈理解、推理、规划和执行这些事。
一位Agent应用开发者告诉数智前线,一些基于GPT-4上能使用的能力,迁移到一些国内大模型上就不可用了,“这非常常见,其实也对Agent的实际落地造成了非常大的困扰。”这需要国内基础大模型厂商的共同努力。
而除了Agent的各种能力本身,实在智能Agent智能体项目核心算法负责人认为,安全机制的构建也必不可缺,“不仅需要官方定义的那几个能力,还需要安全性和多Agent之间的协同,才能在B端更好落地。目前这也是我们花了很大精力做的工作。”
2024年被周健视作Agent的元年。他认为,经过一年发展,大模型公司也在思考商业化问题,而大模型要落地,需要AI Agent公司来完成,因此,2024应用为王,行业要用各种各样的新应用,证明生产力确实是能够被大模型封装,走向智能。“某种程度上,整个行业需要一个爆款”。