智能体,正处于大爆发的前夜。
正见TrueView
内容/阿文
编辑/咏鹅
校对/莽夫
智能体,正处于大爆发的前夜。
近日,在Agent OpenDay上,智谱AI展示了在AI Agent(智能体)方面最新成果,发布了用AI替代人类执行任务的三款智能体,分别是面向手机的phone use——AutoGLM,面向电脑的compute use——GLM PC,以及面向网页的GLM-Web能力。
此前,微软也宣布,已建立全球规模最大的企业级AI Agent生态系统。加之谷歌Jarvis意外泄露、OpenAI即将推出Operator……似乎过不了多久,AI Agent就将接管我们的生活和工作。
那么AI Agent到底是什么?
从概念上来说,AI Agent是一种不需要持续人类干预的AI系统,可以基于环境和背景信息,自主分析各种问题,做出逻辑决策,并且在没有持续人类输入的情况下处理多种任务,比如AlphaGo是一个典型的AI Agent,它可以在和人类对弈围棋的过程中,根据当前的棋局和对手的行动,自主决策下一步的动作。
AI技术从基础模型到Agent概念兴起,再到如今能自主推理,还能操作执行特定任务的软件,经历了一个漫长而复杂的技术演变过程。
强化学习是AI Agent发展的关键技术之一,大语言模型(LLM)的发展为AI Agent提供了新的可能性。LLM作为AI Agent的核心大脑,可以实现复杂问题的拆解、类人的自然语言交互等能力。
AI Agent代表着AI技术迈向更智能、更自主交互的新阶段。它不再仅仅是简单地执行指令,而是能够像人类助手一样,根据复杂的情境和目标进行自主规划、决策与执行任务。想象一下,如果你饿了,你只需要给AI助手下达“点个外卖”的指令,AI助手就能自动帮你完成从外卖搜索、查询、下单、确认的全部动作。
这不仅仅是提升效率的表现,还是一种全新的人机交互模式,可以让机器和人之间的关系更加紧密。去年12月比尔·盖茨曾预测,Agent不仅将改变人们与计算机的互动方式,还将颠覆软件行业;李彦宏也认为,智能体是AI时代的网站,将会有几百万,甚至更大量的智能体出现形成庞大生态。
Part.1
AI Agent进化史:
从简单对话到私人助理
Agent概念并非是人工智能第三次浪潮的产物,而是伴随人工智能出现的“智能实体”概念不断进化的结果。
1966年,MIT人工智能实验室的Joseph Weizenbaum开发出了历史上第一个聊天机器人ELIZA,名字源于萧伯纳戏剧作品《卖花女》中的主角名,它只有200行程序代码和一个有限的对话库,可以针对提问中的关键词,进行答复。
ELIZA其实没有任何智能性可言。它基于规则运作,既不理解对方的内容,也不知道自己在说什么。但即便如此,它还是开创了人机对话的先河。ELIZA可以说是现在Siri、小爱同学等问答交互工具的鼻祖。
进入21世纪后,随着技术的不断发展,AI Agent的发展进入平稳期,机器学习技术的兴起为AI Agent的智能提升提供了动力,深度学习技术的突破为AI Agent的发展带来了革命性的进步,使得AI Agent在图像识别、语音识别、自然语言处理等领域取得了重大突破。
目前,人工智能已经广泛应用于各个领域,如医疗、教育、交通、金融等,AI Agent在这些领域的应用提高了工作效率。
2011年,可以说具备关键转折意义的一年。首先,IBM Watson在智力问答节目Jeopardy!中战胜人类选手,展示了AI的强大潜力;其次,这一年,苹果推出Siri,开创了移动智能助手的新时代。2014年,微软在中国推出AI聊天机器人“小冰”,首次展现了AI在情感计算和社交互动方面的潜力。
但严格意义上来说,AI Agent真正到来的开端是2022年11月,OpenAI发布ChatGPT,掀起了全球AI热潮。2023年3月14日多模态大模型GPT-4发布,支持图像输入,其理解力和生成能力大幅提升,开创了自主AI Agent的先河。可以说,ChatGPT的问世,实现了从“说”到“做”,不再仅仅停留在对话层面,而是能够自主执行复杂任务。
AI Agent能有如今的发展速度,离不开关键技术的突破,如深度学习与神经网络的发展、大规模预训练语言模型、强化学习与人类反馈、多模态交互能力以及工具使用和环境适应能力等等。
据悉,智能体的数量呈爆发式增长,国内智能体总数1年超1000万个,是苹果应用商店每年上线应用数量的85倍。智能体创作平台也被比尔·盖茨认为是继Android、iOS和Windows后的下一代应用开发平台。
Part.2
大厂纷纷下场
AI Agent涌向终端市场
智能体或将成为继PC、移动终端后的下一个爆发点。李彦宏曾公开表示,基础模型本身是需要靠应用才能显现出来的价值。智能体就是一个几乎可以是放之四海而皆准的基于大模型的应用。
数据显示,2024年1月到10 月,中国AI原生应用(App)累计下载量排名前5的应用豆包、文小言(原文心一言)、Kimi、星野、天工AI累计下载量分别为1.08亿、2260万、2100万、1790万、1170万。
国内最早上线大模型原生应用的是百度,于2023年3月16日上线文心一言,与OpenAI发布ChatGPT仅相距三个月时间。随后国内互联网大厂和创业新秀们陆陆续续上线国产AI大模型应用,如阿里通义千问大模型2023年4月上线,讯飞星火大模型2023年5月上线,智谱AI 2023年9月上线,后起之秀Kimi智能助手稍晚,但也于2023年10月上线,距ChatGPT发布不过10个月。
2024年6月25日OpenAI宣布中国不在当前支持API服务的188个国家和地区名单中,这意味着ChatGPT将终止在中国的服务。而对于国内的AI玩家和智能体开发者来说,这无疑是天大的利好机会。
据悉,互联网大厂中,百度、阿里、腾讯、字节跳动、华为等皆已布局智能体赛道,并推出一站式智能体开发平台。一时间,字节跳动的扣子、腾讯云的腾讯元器、百度智能云千帆AgentBuilder、阿里云大模型平台百炼、科大讯飞星火智能体平台等智能体开发平台百花齐放。
相较于大厂的算力、数据、人才等资源优势,能够在模型端、应用端以及中间层智能体开发平台协同闭环发展,其他规模厂商的大模型技术路径虽各有侧重,但都有一定的大模型研发基础。
2023年4月,商汤科技推出名为“日日新SenseNova”的大模型,集成了自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种强大功能。
再比如百川智能,由搜狗创始人王小川创立,自2023年成立以来便以惊人的速度发展。短短半年多时间,百川智能便接连发布了Baichuan-7B/13B、Baichuan2-7B/13B四款开源可免费商用大模型,以及Baichuan-53B、Baichuan2-53B两款闭源大模型,平均每28天就会有一款新的大模型问世。
智谱AI自2019年成立以来,便深耕于大模型研发领域,凭借着清华大学知识工程实验室(KEG)的强大技术支撑。2023年,其推出面向C端用户的聊天对话应用“智谱清言”。
和互联网大厂不同的是,智谱AI、百川智能等初创企业,更多的是以AI应用助手的产品形式为主,暂未推出智能体开发平台。
值得注意的是,2024年,越来越多的手机厂商开始频繁提及手机智能体相关概念。近日,vivo在其2024开发者大会上推出了名为PhoneGPT的手机智能体,是手机中可以基于用户意图主动完成任务的多模态助理,它可以准确地识别手机屏幕界面中的内容,自动操作手机中各种各样的应用,完成用户交代的任务,比如打电话、短信等。
早在今年9月,荣耀在2024德国柏林消费电子展上发布跨应用开放生态智能体。更早之前,6月,华为也在其开发者大会期间宣布了“鸿蒙原生智能”(Harmony Intelligence),小艺升级为系统级智能体。
比尔·盖茨曾预测,AI Agent将是大模型之后的下一个平台,越来越多的大模型公司和科技企业都开始布局Agent。在大模型这场竞争装备赛中,如果说上半场卷的是基础能力,那么现在,AI Agent的应用落地成为最重要的产品竞争形态。
Part.3
爆发前夜:
全民智能体能否成为现实?
AI Agent的能力会不断完善。首先,能够分解任务并制定执行计划;其次,可以调用API、访问网络、操作软件;第三,具备持续学习和知识积累能力。最后,能够在复杂环境中做出自主判断。
智能体不仅能对话,还具有反思和规划能力。如果用户反馈结果不对,它会自己思考哪里出问题了,还能够对分配的任务进行自主规划、思考调用什么工具能够实现最终目标。
因此也可以预判,随着技术的成熟和应用场景的明确,AI Agent的能力维度逐步完善,用户体验效果也会更好。这对于企业级智能体应用也将十分有价值。未来,企业级AI Agent或将迎来快速增长期,各行各业都将开始大规模采用定制化的Agent解决方案。
此外,未来的AI系统将不再是独立运行的单个Agent,而是多Agent协作将取代单Agent系统,即由多个专业化Agent组成的协作网络,它们能够分工合作,共同完成复杂任务。
银河证券研报指出,AI Agent的崛起正重塑AI产业链并带来投资新机遇。预计到2028年,中国AI代理市场规模将激增至8520亿元,年复合增长率达72.7%。AI Agent产业链是多元化且高度协同生态系统,未来市场空间广阔。AI Agent推动App生态逐渐向端侧生态转变,将成为AI应用发展新趋势。传统端侧AI之前的痛点之一是无法通过用户指令调用操作界面并实现用户目标。AI Agent模型通过实现自然语言与硬件的交互,解决端侧AI痛点。
AI Agent虽然带来了诸多想象力,但在真正的落地应用中还存在诸多挑战。比如,可靠性、性能和成本依旧是一个大难题。众所周知,LLM容易产生幻觉和不一致性,将多个 AI步骤连接起来会加剧这些问题,尤其是对于需要精确输出的任务。此外,GPT-4、Gemini-1.5和Claude Opus在使用工具/函数调用方面表现不错,但它们仍然较慢且成本高,特别是需要进行循环和自动重试时。
风口之上,任何一家企业与个体都想要抓住它,但Agent如何保证用户的数据安全和隐私一直是业界讨论最多的问题之一。
Agent一旦投入应用,势必会接触到客户的核心数据,倘若数据泄漏,可能让用户和社会蒙受巨大损失。如若在账单、密码、购物等涉及支付或个人信息的敏感动作中,用户信任很难建立。但数据又是模型训练不可缺少的“生产资料”。
当前,中国正处于AI智能体应用快速发展的关键节点,有挑战是正常现象。谁能快速适应并利用好智能体技术,将直接影响该企业未来能否在市场竞争中脱颖而出。而AI Agent的火爆,会迎来一个比互联网时代还要火爆的黄金年代吗?我们拭目以待。