个性化大模型,将大开眼界
光子星球撰文|吴坤谚
编辑|王潘
先有理论还是先有应用?
起码在涌现能力上,是应用为先。例如大语言模型(LLMs)的涌现能力(emergent ability),以GPT3为代表的主流大语言模型在参数规模超过10^22级别后,效果突然大幅提升。
这让大模型的研发在短短数月内进入了一场取决于数据获取和算力调配的竞赛,“技术上有深度但竞争呈红海”。但就在业内相互比拼参数多少的时候,天猫精灵在尝试用亿级参数做AIGC。
4月,天猫精灵公开了首个接入千问大模型的智能硬件demo,近日又透出了一款研发中的AIGC新型硬件demo——智能随身眼镜。目前市场公版暂不清楚升级政策,但从工程体验来看,具有随身聊天+语音生成的功能。
据了解,该款智能随身眼镜的载体是天猫商城中在售的CZ0001,原先的设备已经搭载了骨传导结构为基础的通话、音频、防水等功能。在实机体验中,demo通过原搭载在智能眼镜中的收发声单元与测评人流畅交互,形式上也并非一般大模型中展现的一问一答,而是更偏向于沟通的人性化交互。此外,该demo在接收人声信号后的反应速度较快,在健康、办公以及游戏等多样化的消费场景中都展现出了不错的反应速度,并未出现卡壳的现象。
智能硬件和软件一样,存在与大模型相结合的无数可能,是大模型的又一个具备丰富的落地应用场景的方向。小度开始做手机,天猫精灵做眼镜,背后是对智能终端发展不同的思路。天猫精灵demo的问世,也意味着大模型进入了软件应用之外的场景,这无疑标志着AIGC硬件会逐渐走入更加个人化的、随身的垂直使用场景中。
大模型不应厚B薄C
大模型领域,我们还在朝着OpenAI紧追慢赶,只是在商业化领域,国内玩家的步伐明显更快。在今年4月到5月间的大模型井喷期,一众入局者在公布了自家大模型的同时也给出了商业化落地的路径。
就目前来看,国内大模型主流的商业化路径有两种:其一是以通用大模型为底座,接入如今丰富的移动互联网应用生态;其二是扎根某个垂类生态,以特定的具体场景中产出的高质量数据作为大模型的“涌现”能力的养料。只是在目前已公开的多条路径中,B端场景占据多数。
这其实并不奇怪,面对涌现能力“大力出奇迹”的特点,大模型训练往往耗资甚巨,落地的想象也浩如烟海。在重资产投入下,选择在数据积累更厚、应用更成熟的垂直领域落地,可以快速进入自我造血的良性循环。而且,如果考虑成本回收以及变现问题,付费能力更强的B端自然是首选。
比较典型的是,仅4月期间,多家大模型宣布接入办公场景,如协同办公、办公助手等。但阿里的野心却远不止于此,电商起家的深刻烙印,让阿里在大模型的商业化落地中将C端放在了与B端相等的位置上,借助已有的语音交互基础,早在通用大模型通义千问面世前便以天猫精灵语音助手为载体,基于演员“鸟鸟”的类GPT应用。
相比于需要“调教”的通用大模型以及偏向B端应用的垂类大模型,接入大模型的天猫精灵demo可以应对更复杂的交互场景,支持基于人类反馈进行强化学习。当人类询问一个问题(Query)时,天猫精灵demo会首先经过猫耳算法将其转换为文本,随后通过大模型产生个性化的对话回复,最后再到个性化的语音合成给出回答。整个过程还有Multi-Turn对话系统来支持,确保低时延、支持多轮对话以及随时打断。
只是在接收并理解人声信号的时候,天猫精灵demo还是出现了语义理解错误的问题。而且实际测试非常日常且生活化,对于复杂问题的处理可能还没到位。
更值得一提的是,天猫精灵demo所展现出的智能交互水平并非基于参数量在十万亿以上的通义千问大模型,而是基于相对更小、在外界看来是作为通用大模型“知识蒸馏”的中小模型。
资料显示,天猫精灵接入的个性化大模型在参数规模上是亿级到十亿级,通过针对消费场景的不断微调和强化学习,以低于行业标杆OpenAI研究的涌现参数标准做到了近似千亿级大模型的生成水平,在计算资源消耗大幅降低的同时兼顾了清晰的商业模式。
这是国内大模型进一步有效控制大模型成本的“个性化”尝试。虽然涌现能力原理的面纱还是未能揭开,但天猫精灵demo的出现显然是大模型训练路线中的一次有效探索。
至于商业化的落地,天猫精灵demo也是业内难得的面向消费场景的大模型应用。
无论是移动互联网应用中催生的多元化平台生态,还是区块链应用催生的NFT、数字藏品,面对新生事物,C端用户往往付费意愿更强。造成这一现象的根本原因在于决策人,B端的决策人往往是企业领导、采购部门,他们并非产品的直接使用者,而且需要考虑成本、预算、适用性等多个维度,而C端的决策者是自己,不仅更容易在大模型的认知焦虑下驱使付费,决策相对非理性,而且成交周期短,更容易进入自我造血的循环。
只是在类GPT应用中,C端用户由于GPT锁区而苦于没有落地产品可以使用和体验,如今面世的大模型又将商业化重心落脚于B端。至少目前,阿里的天猫精灵AIGCdemo选择了人数相对少的路径,而且落地的想象也足够丰富。
生活化的“无感”
既然个性化大模型和智能终端的结合是一个丰富、有落地应用场景的方向,为何却鲜少有人尝试?这一问题的答案或许能自元宇宙的前车之鉴中探求。
和元宇宙风口相似,大模型的应用同样存在不同企业的认知基础上分化出的不同方向。只是曾经的元宇宙却无法为消费者带来足够沉浸的体验,而大模型却具备这样的潜力。
以如今大模型基本的NPL文本生成为例,我们仅需要登录大模型的入口,输入问题指令即可快速获得回答,而元宇宙所追求的沉浸式赛博空间,于消费者而言不仅缺乏硬件设备支持,同时以目前公用网络带宽连云游戏都难以cover的情况,大量消费者共处在某一个赛博空间中娱乐、生活的愿景只能停留在春秋笔法中,难以落地。
只是目前多数大模型也只是达到了消费场景的初步需求。
在消费场景中,用户需要和追求的是“无感”的使用体验,即要求更多具有沉浸感的交互能够在无意识的情况下自然下发生。通常,“沉浸感”的说法常常出现在游戏、XR等偏重虚拟现实体验的领域,而在在大模型需求的多模态交互语境下,沉浸感自然可以进一步解释为"无感"的交互方式。”
简单来说,即使做不到像3A大作一样呈现光怪陆离的世界以供体验,也需要像我们日常出行中会无意识地打开天气APP看看天气,打开打车软件叫个车。仅需简单对比使用体验便不难看出,目前对C端用户的“无感”体验上,大模型玩家们的功力还远远不够。
即使是被业内奉为标杆的ChatGPT,用户在付费使用时也需要经历解锁设备、打开网页、输入对应问题三个环节,期间还需要不断通过prompt来获取想要的内容。至于当下越来越多的、搭载在某个应用生态的大模型,则与曾经的元宇宙应用相似。由于不能抢了平台原生应用的“风头”,往往需要用户在平台生态中找到入口,相对网页载体更加麻烦。
换句话说,假设将大模型进入我们日常生活的状态称为 AI 2.0 ,如今的应用体验充其量是 AI 1.5 。
这样的仪式化过程就像早期的互联网,个人计算机只能通过电话线和网络交换器核心进行连接,并使用modem将电话线传输的300HZ到3400HZ的模拟信号波形转换为计算机可以处理的信号,因此彼时也将上网戏称为“冲浪”。这样的复杂流程天然与消费场景相悖,即使大模型能凭借优异的工具特性牢牢抓住老板和打工人们,也难以融入我们的日常生活之中。
与之相比,以智能硬件为入口反而是大模型接入日常消费场景的一记“妙手”。
生活化才是未来
如果将时间回拨至两年前,那时无论是智能穿戴设备还是大模型,都不会想到今天两者的结合。
彼时大模型只是在NPL(自然语言处理)、CV(计算机视觉)两条AI赛道爆发后的科研尝试,以阿里为代表的头部大厂将参数量卷到10万亿级别时,缺乏明确的商业路径和巨大的算力投入让大模型止步于研究阶段。而智能穿戴设备同样也走进平台期,相对普通用户而言稍显鸡肋的丰富功能与品牌溢价让增长愈发乏力,入局者不得不将目光放向对健康功能更为重视的中老年市场。
此外,两者更大的相同点在于技术存在实际冗余。
由OpenAI测算出的大模型涌现规模是百亿级,可2021年,国内的大模型的参数已经卷上10万亿。以天猫精灵demo为代表的智能眼镜所需的骨传导、算法、发声单元或是其他智能穿戴设备的技术功能也日趋成熟。而更能体现技术冗余的,则是两者在应用形式上迟迟难以发生变化。
随着时间的催化,技术上冗余会不断汇聚,由此也有可能迸发出新的应用形式。
只是业务方向的尝试多种多样,当局者迷才是一众先行者的众生相。例如令曾在3G时代大力发展视频通话业务的运营商始料不及的是,该业务会在4G时代进入寻常百姓家。
回到天猫精灵一系列大模型测试之上,我们缘何判断这将是一条可行路径?
因为就目前而言,demo作为新型应用形式已经达成了使用体验的跃进。其一是智能穿戴设备所预设的实现用户信息交互、人体健康监测、健康放松及生活娱乐等功能都可以在语音这一模态的输出下得以触达,其二是大模型也能借由消费品载体进入我们的生活。
这条路径的终点,是人人都能拥有钢铁侠的贾维斯(漫威漫画中的强人工智能)。
阿里巴巴集团首席执行官张勇在4月的阿里云峰会上说的“所有产品都将接入AI大模型”所言非虚。只是根据实测结果,天猫精灵demo距离落地还有一段不小的距离。
在个性化大模型的训练中采用亿级参数,也可能商业化成本管控之下的结果,但这并不妨碍demo作为行业的一次有效创新。大模型的落地路径无数,如果大模型确是一次堪比第二次工业革命的浪潮,那么率先亮出“灯泡”以“先声夺人”,不知这是否是一件好事。