智能体，正处于大爆发的前夜。

2024.12.04 正见TrueView

     内容/阿文
     编辑/咏鹅
    校对/莽夫
    智能体，正处于大爆发的前夜。
    近日，在Agent OpenDay上，智谱AI展示了在AI Agent（智能体）方面最新成果，发布了用AI替代人类执行任务的三款智能体，分别是面向手机的phone use——AutoGLM，面向电脑的compute use——GLM PC，以及面向网页的GLM-Web能力。
    此前，微软也宣布，已建立全球规模最大的企业级AI Agent生态系统。加之谷歌Jarvis意外泄露、OpenAI即将推出Operator……似乎过不了多久，AI Agent就将接管我们的生活和工作。
    那么AI Agent到底是什么？
    从概念上来说，AI Agent是一种不需要持续人类干预的AI系统，可以基于环境和背景信息，自主分析各种问题，做出逻辑决策，并且在没有持续人类输入的情况下处理多种任务，比如AlphaGo是一个典型的AI Agent，它可以在和人类对弈围棋的过程中，根据当前的棋局和对手的行动，自主决策下一步的动作。
    AI技术从基础模型到Agent概念兴起，再到如今能自主推理，还能操作执行特定任务的软件，经历了一个漫长而复杂的技术演变过程。
    强化学习是AI Agent发展的关键技术之一，大语言模型（LLM）的发展为AI Agent提供了新的可能性。LLM作为AI Agent的核心大脑，可以实现复杂问题的拆解、类人的自然语言交互等能力。
    AI Agent代表着AI技术迈向更智能、更自主交互的新阶段。它不再仅仅是简单地执行指令，而是能够像人类助手一样，根据复杂的情境和目标进行自主规划、决策与执行任务。想象一下，如果你饿了，你只需要给AI助手下达“点个外卖”的指令，AI助手就能自动帮你完成从外卖搜索、查询、下单、确认的全部动作。
    这不仅仅是提升效率的表现，还是一种全新的人机交互模式，可以让机器和人之间的关系更加紧密。去年12月比尔·盖茨曾预测，Agent不仅将改变人们与计算机的互动方式，还将颠覆软件行业；李彦宏也认为，智能体是AI时代的网站，将会有几百万，甚至更大量的智能体出现形成庞大生态。
    Part.1
    AI Agent进化史：
    从简单对话到私人助理
    Agent概念并非是人工智能第三次浪潮的产物，而是伴随人工智能出现的“智能实体”概念不断进化的结果。
    1966年，MIT人工智能实验室的Joseph Weizenbaum开发出了历史上第一个聊天机器人ELIZA，名字源于萧伯纳戏剧作品《卖花女》中的主角名，它只有200行程序代码和一个有限的对话库，可以针对提问中的关键词，进行答复。
    ELIZA其实没有任何智能性可言。它基于规则运作，既不理解对方的内容，也不知道自己在说什么。但即便如此，它还是开创了人机对话的先河。ELIZA可以说是现在Siri、小爱同学等问答交互工具的鼻祖。
    进入21世纪后，随着技术的不断发展，AI Agent的发展进入平稳期，机器学习技术的兴起为AI Agent的智能提升提供了动力，深度学习技术的突破为AI Agent的发展带来了革命性的进步，使得AI Agent在图像识别、语音识别、自然语言处理等领域取得了重大突破。
    目前，人工智能已经广泛应用于各个领域，如医疗、教育、交通、金融等，AI Agent在这些领域的应用提高了工作效率。
    2011年，可以说具备关键转折意义的一年。首先，IBM Watson在智力问答节目Jeopardy!中战胜人类选手，展示了AI的强大潜力；其次，这一年，苹果推出Siri，开创了移动智能助手的新时代。2014年，微软在中国推出AI聊天机器人“小冰”，首次展现了AI在情感计算和社交互动方面的潜力。
    但严格意义上来说，AI Agent真正到来的开端是2022年11月，OpenAI发布ChatGPT，掀起了全球AI热潮。2023年3月14日多模态大模型GPT-4发布，支持图像输入，其理解力和生成能力大幅提升，开创了自主AI Agent的先河。可以说，ChatGPT的问世，实现了从“说”到“做”，不再仅仅停留在对话层面，而是能够自主执行复杂任务。
    AI Agent能有如今的发展速度，离不开关键技术的突破，如深度学习与神经网络的发展、大规模预训练语言模型、强化学习与人类反馈、多模态交互能力以及工具使用和环境适应能力等等。
    据悉，智能体的数量呈爆发式增长，国内智能体总数1年超1000万个，是苹果应用商店每年上线应用数量的85倍。智能体创作平台也被比尔·盖茨认为是继Android、iOS和Windows后的下一代应用开发平台。
    Part.2
    大厂纷纷下场
    AI Agent涌向终端市场
    智能体或将成为继PC、移动终端后的下一个爆发点。李彦宏曾公开表示，基础模型本身是需要靠应用才能显现出来的价值。智能体就是一个几乎可以是放之四海而皆准的基于大模型的应用。
    数据显示，2024年1月到10 月，中国AI原生应用（App）累计下载量排名前5的应用豆包、文小言（原文心一言）、Kimi、星野、天工AI累计下载量分别为1.08亿、2260万、2100万、1790万、1170万。
    国内最早上线大模型原生应用的是百度，于2023年3月16日上线文心一言，与OpenAI发布ChatGPT仅相距三个月时间。随后国内互联网大厂和创业新秀们陆陆续续上线国产AI大模型应用，如阿里通义千问大模型2023年4月上线，讯飞星火大模型2023年5月上线，智谱AI 2023年9月上线，后起之秀Kimi智能助手稍晚，但也于2023年10月上线，距ChatGPT发布不过10个月。
    2024年6月25日OpenAI宣布中国不在当前支持API服务的188个国家和地区名单中，这意味着ChatGPT将终止在中国的服务。而对于国内的AI玩家和智能体开发者来说，这无疑是天大的利好机会。
    据悉，互联网大厂中，百度、阿里、腾讯、字节跳动、华为等皆已布局智能体赛道，并推出一站式智能体开发平台。一时间，字节跳动的扣子、腾讯云的腾讯元器、百度智能云千帆AgentBuilder、阿里云大模型平台百炼、科大讯飞星火智能体平台等智能体开发平台百花齐放。
    相较于大厂的算力、数据、人才等资源优势，能够在模型端、应用端以及中间层智能体开发平台协同闭环发展，其他规模厂商的大模型技术路径虽各有侧重，但都有一定的大模型研发基础。
    2023年4月，商汤科技推出名为“日日新SenseNova”的大模型，集成了自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种强大功能。
    再比如百川智能，由搜狗创始人王小川创立，自2023年成立以来便以惊人的速度发展。短短半年多时间，百川智能便接连发布了Baichuan-7B/13B、Baichuan2-7B/13B四款开源可免费商用大模型，以及Baichuan-53B、Baichuan2-53B两款闭源大模型，平均每28天就会有一款新的大模型问世。
    智谱AI自2019年成立以来，便深耕于大模型研发领域，凭借着清华大学知识工程实验室（KEG）的强大技术支撑。2023年，其推出面向C端用户的聊天对话应用“智谱清言”。
    和互联网大厂不同的是，智谱AI、百川智能等初创企业，更多的是以AI应用助手的产品形式为主，暂未推出智能体开发平台。
    值得注意的是，2024年，越来越多的手机厂商开始频繁提及手机智能体相关概念。近日，vivo在其2024开发者大会上推出了名为PhoneGPT的手机智能体，是手机中可以基于用户意图主动完成任务的多模态助理，它可以准确地识别手机屏幕界面中的内容，自动操作手机中各种各样的应用，完成用户交代的任务，比如打电话、短信等。
    早在今年9月，荣耀在2024德国柏林消费电子展上发布跨应用开放生态智能体。更早之前，6月，华为也在其开发者大会期间宣布了“鸿蒙原生智能”（Harmony Intelligence），小艺升级为系统级智能体。
    比尔·盖茨曾预测，AI Agent将是大模型之后的下一个平台，越来越多的大模型公司和科技企业都开始布局Agent。在大模型这场竞争装备赛中，如果说上半场卷的是基础能力，那么现在，AI Agent的应用落地成为最重要的产品竞争形态。
    Part.3
    爆发前夜：
    全民智能体能否成为现实？
    AI Agent的能力会不断完善。首先，能够分解任务并制定执行计划；其次，可以调用API、访问网络、操作软件；第三，具备持续学习和知识积累能力。最后，能够在复杂环境中做出自主判断。
    智能体不仅能对话，还具有反思和规划能力。如果用户反馈结果不对，它会自己思考哪里出问题了，还能够对分配的任务进行自主规划、思考调用什么工具能够实现最终目标。
    因此也可以预判，随着技术的成熟和应用场景的明确，AI Agent的能力维度逐步完善，用户体验效果也会更好。这对于企业级智能体应用也将十分有价值。未来，企业级AI Agent或将迎来快速增长期，各行各业都将开始大规模采用定制化的Agent解决方案。
    此外，未来的AI系统将不再是独立运行的单个Agent，而是多Agent协作将取代单Agent系统，即由多个专业化Agent组成的协作网络，它们能够分工合作，共同完成复杂任务。
    银河证券研报指出，AI Agent的崛起正重塑AI产业链并带来投资新机遇。预计到2028年，中国AI代理市场规模将激增至8520亿元，年复合增长率达72.7%。AI Agent产业链是多元化且高度协同生态系统，未来市场空间广阔。AI Agent推动App生态逐渐向端侧生态转变，将成为AI应用发展新趋势。传统端侧AI之前的痛点之一是无法通过用户指令调用操作界面并实现用户目标。AI Agent模型通过实现自然语言与硬件的交互，解决端侧AI痛点。
    AI Agent虽然带来了诸多想象力，但在真正的落地应用中还存在诸多挑战。比如，可靠性、性能和成本依旧是一个大难题。众所周知，LLM容易产生幻觉和不一致性，将多个 AI步骤连接起来会加剧这些问题，尤其是对于需要精确输出的任务。此外，GPT-4、Gemini-1.5和Claude Opus在使用工具/函数调用方面表现不错，但它们仍然较慢且成本高，特别是需要进行循环和自动重试时。
    风口之上，任何一家企业与个体都想要抓住它，但Agent如何保证用户的数据安全和隐私一直是业界讨论最多的问题之一。
    Agent一旦投入应用，势必会接触到客户的核心数据，倘若数据泄漏，可能让用户和社会蒙受巨大损失。如若在账单、密码、购物等涉及支付或个人信息的敏感动作中，用户信任很难建立。但数据又是模型训练不可缺少的“生产资料”。
    当前，中国正处于AI智能体应用快速发展的关键节点，有挑战是正常现象。谁能快速适应并利用好智能体技术，将直接影响该企业未来能否在市场竞争中脱颖而出。而AI Agent的火爆，会迎来一个比互联网时代还要火爆的黄金年代吗？我们拭目以待。