大模型时代进入尾声:场景式模型接棒
华尔街科技眼
文/彭艺信
编辑/侯煜
ChatGPT像里科技行业里的鲇鱼,搅动一池春水。自从它出现之后,中国科技企业扎堆发布AI大模型。
有人嘲讽,ChatGPT在中国即将“亩产过万”;也有人调侃,下个阶段该是“全民大模型,ChatGPT进万家”了吧;还有人直言,ChatGPT是十月怀胎,中国大模型一个月成型。
中国大模型为何能飞速成型?究竟是养在深闺人未识,还是跟风造概念?阿里云CTO周靖人说过,动辄超千亿参数的大模型研发,不是单一的算法问题,也不是靠简单堆积GPU就能实现的。大模型是囊括了底层算力、网络、存储、大数据、AI框架、AI模型等复杂技术的系统性工程,需要AI-云计算的全栈技术能力。
在当下增长乏力的科技互联网产业生态中,互联网企业把大模型当做救命草。不过,尽管市场火热,但潮退后才能见识真实力。
中国科技圈,大模型的大跃进如火如荼,但在本月初, OpenAI 的 CEO 在演讲中警告称:我们已经处在大模型时代的尾声,并表示如今的生成式AI (AIGC )发展中,将数据模型进一步做大,塞进更多数据的方式,已经是目前人工智能发展中最后一项重大进展,并且还声称目前还不清楚未来的发展方向如何。
可以预言的是,当下大模型技术对于 AIGC 的发展至关重要,但从长远来讲,AI 的发展绝不会永远依赖大模型的参数提升和算力的堆砌。未来,针对更具体的应用场景,开发更小更精准、针对应用场景的模型才是发展的方向。
本文将盘点目前市场上呼声较高的大模型,中国大模型究竟是昙花一现,还是千锤百炼不断精进,让我们持续关注。
OpenAI
2021年11月,OpenAI推出了GPT3.0。它是运用1759亿个参数所实现的预训练语言模型。去年年底ChatGPT问世,该系统发布后五天内就吸引了超过100万用户。
ChatGPT是人工智能技术驱动的自然语言处理工具,其使用的人类反馈的强化学习技术,可以更容易推断出用户的意图,产生更自然和更合理的回答,像人类一样来聊天交流,完成撰写视频脚本、文案、代码、论文等任务。
今年2月OpenAl投资人微软宣布推出由ChatGPT支持的最新版本人工智能搜索引擎Bing(必应)和Edge浏览器,到今年3月15日,OpenAI推出GPT-4文本生成AI系统,但仅向Plus付费订阅用户及企业和开发者开放。
OpenAI公布的训练GPT模型由于训练过程复杂,数据不透明,加上长期的技术迭代等,其在算法层和硬件层积累起巨大优势,外界想要复制ChatGPT并不容易,ChatGPT目前在大模型领域的霸主地位无人能够撼动,OpenAI市场估值已经达到290亿美元,成为世界上估值最高的初创公司。
现在的ChatGPT面对的不只是商业化和监管的压力,由马斯克、图灵奖得主Bengio等千人联名的“暂停高级AI研发”的公开信,目前签名数量已有9000多人,此外,它也受到越来越多的国家的抵制,在其出现的两个月后,意大利就宣布禁止使用ChatGPT,原因是认为ChatGPT平台不安全并且会非法收集大量用户信息。
特点:可以直接面向C端用户群体。
参数量大:ChatGPT-3模型使用了1750亿个参数, ChatGPT-4的参数量更大,
迭代快:OpenAI在原本官网产品下拉菜单中的ChatGPT已换成了GPT-4。
百度“文心一言”大模型
作为国内人工智能(AI)领域的旗手,今年3月,百度就推出直接对标ChatGPT的文心一言。
文心一言也拥有文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成的能力。百度文心一言的发布会后一小时内,排队申请文心一言企业版 API 调用服务测试的企业用户超 3 万家,申请产品测试网页多次被挤爆。
根据后期大量试用的反馈,文心一言也暴露出通过模式和规则来生成文本等问题,对比之下,业界出现了“百度抢占大模型市场的心态操之过急”的看法,也让大家看到了国内外自然语言处理大模型方面的差距。
事实上百度在大模型领域沉淀已久,百度早在2019年就推出了文心大模型ERNIE 1.0,而目前,ERNIE 3.0每天接受数十亿用户的搜索请求。文心一言会基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习,具有知识增强、检索增强和对话增强的技术特色。
已有650家企业伙伴加入文心一言生态,包括小度和自动驾驶Apollo等产品,以及爱奇艺等公司也已经接入百度的文心一言模型。
特点:拥有三级大模型技术体系
形成了“基础-任务-行业”三级大模型技术体系,拥有NLP、计算机视觉(CV)、跨模态等基础大模型,以及对话、跨语言、搜索等任务大模型,还有生物计算领域大模型、各行业大模型及支撑大模型应用的工具平台。
阿里通义大模型
4月11日,阿里云智能首席技术官周靖人在阿里云峰会上正式官宣阿里巴巴“通义千问”。
打开通义千问,是一个聊天对话框,与竞品相似,通义千问在作为“问答机器人”基础上还新增了图片生成应用功能,通过拍照上传一张功能草图,便可以自动生成低代码业务应用。
实际上,早在2022年9月阿里巴巴达摩院就发布了“通义”大模型,打造了国内首个AI统一底座,并且通义M6使用的参数规模超过了ChatGPT,是全球参数规模最大的AI模型。
去年11月阿里还正式提出“Model as a Service”理念,牵头搭建了国内规模最大的AI模型服务社区“魔塔”,公布的数据显示,魔塔社区目前已有超100万活跃用户,模型累计下载次数超1600万,模型总数达800个,与十几个顶尖人工智能机构合作。
接下来,阿里所有App,包括天猫、淘宝、钉钉等未来都会接入通义千问,进行全面改造。
通义大模型更偏向为B端服务,周靖人在峰会上强调,未来每一个企业在阿里云上既可以调用“通义千问”的全部能力,也可以结合企业自己的行业知识和应用场景,训练自己的企业大模型。在2022年阿里就将AI应用于电力调度,联合电网研发出高精度电网负荷预测模型,现已在山东德州落地。
特点:服务B端、瞄准企业客户
商汤“日日新大模型”
在4月10日的商汤技术交流日活动上,商汤“日日新SenseNova”大模型体系正式问世,作为中文大模型,其包含自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力,商汤还公布了基于该体系的AI内容生成式平台——包括秒画、如影、琼宇、格物等。
目前商汤在AI领域的投入规模已经超过百亿,商汤已打造CV(计算机视觉)、NLP(自然语言处理)、AIGC(人工智能内容生成)多个AI大模型,历时五年,商汤一直秉持“模型重在能力而非规模”的看法,在2019年于上海临港建设的商汤人工智能计算中心,共有5000P算力,大装置拥有2.7万块GPU芯片卡,实现自供算力以训练大模型。
商汤也发布了自研类ChatGPT产品“商量”,作为千亿级参数的自然语言处理模型,其能够提供以下功能:编程助手,帮助开发者编写和调试代码;健康咨询助手,为用户提供个性化的医疗建议;PDF文件阅读助手,能轻松从复杂文档中提取和概括信息等能力,商汤科技联合创始人王晓刚则表示“商量”大模型未来主要面向To B端。
此外商汤的大模型研发体系在多种行业场景中落地,比如为政企客户提供包括视觉感知通用任务与标注服务等多种灵活的API接口和服务,客户根据实际应用需求调用大模型的各种AI技术能力。“日日新SenseNova”应用在智能驾驶领域,实现了可识别3000类物体的BEV环视通用感知算法的实车量产,也构建了感知决策一体化的自动驾驶多模态模型,能够给环境、行为、动机解码能力带来突破。
特点:场景式大模型,关注具体的使用场景
Meta
2023年2月25日,作为硅谷三巨头之一的Meta,在官网公布了一个新的大型语言模型 LLaMA(Large Language Model Meta AI),Meta提供了70亿、130亿、330亿和650亿四种参数规模的 LLaMA 模型,由Meta的FAIR团队开发,接受了20种语言的训练。Guillaume Lample 在其Twitter上声称:LLaMA130亿参数版本的表现,在大多数测试上表现优于GPT-31750亿参数版。
为了区别于ChatGPT,Meta首席执行官马克·扎克伯格表示,LLaMA 模型旨在帮助研究人员推进工作,在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂的任务方面有很大的前景。
据了解,LLaMA 模型也有着其他大语言模型的通病:会产生偏见性、虚假的内容。Meta会向非商用的研究机构开放 LLaMA源代码,根据具体情况授予学术研究人员访问权限,开源吸引来的更多的研究者可以帮助解决这些问题。
除此之外,Meta AI在官网发布了图像分割大模型SAM,该模型在图片元素识别与分割上的表现远超预期。英伟达AI科学家Jim Fan在社交媒体上表示,SAM让计算机视觉(CV)迎来“GPT-3时刻”,它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)和在模棱两可的情况下也能很好地进行图像分割。
特点:开源、图像识别能力强
谷歌
2023年2月,Google发布了Bard大模型,这是一款用于对抗ChatGPT、在一个大型语言模型(LLM)基础上推出的智能聊天机器人,Bard作为谷歌对话应用语言模型,可以说是LLaMDA的一个轻量和优化版本。3月21日,谷歌向公众开放了Bard的访问权限,但目前仅支持年满18岁的美英用户注册试用,且只支持英文提问。
Bard也为用户提供了一个单独的聊天界面,从AI功能上来看,Bard跟其他AI模型大同小异,用户可以在文本框中进行提问和搜索,比如让Bard帮你写一篇文章、列一个计划、解决一个题目得出结果等。
然而在谷歌短短的几秒展示里,Bard就出现了大问题:被问到“我可以告诉我 9 岁的孩子关于詹姆斯·韦伯太空望远镜(简称JWST)的哪些新发现?”时, Bard的回答里面有一个巨大的错误:回答里提到“ JWST 拍摄到了太阳系外行星的第一张照片”,事实上,第一张系外行星照片应该是2004年由欧洲南方天文台的Very Large Telescope拍摄的。
由于有了上线后曾出现的混乱和批评的前车之鉴,现在谷歌Bard整个界面都透露出谷歌满满的求生欲。在你开始使用Bard之前,会有一个免责声明,明确提醒你Bard目前还只处于实验阶段。无论是在提问的文本框下面还是答案生成框下方,时刻都写着一行小字,提醒用户“Bard可能生成不准确或者略带攻击性的信息,但并不代表谷歌官方观点”。
特点:聊天大模型、准确性不佳
360
3月29日,在“2023数字安全与发展高峰论坛”上,周鸿祎现场演示了360自研的人工智能语言模型在360浏览器上的应用,并宣布了360的人工智能发展战略。
360于4月9日公告,基于360GPT大模型开发的人类智能产品矩阵“360 智能脑”将落地搜索场景,面向企业用户开放内测。据了解,企业用户在PC端360 搜索首页申请并获得测试资格后,可通过企业安全云体验使用。未来,360 智脑将与浏览器、数字助理、苏打办公、智能营销等场景应用深度结合,全面提升用户工作效率。
特点:面向B端
昆仑万维
昆仑万维公众号在4月10日宣布:由昆仑万维和奇点智源合作自研的,中国第一个真正实现智能涌现的国产大语言模型——“天工3.5”发布在即,并于4月17日启动邀请测试。
昆仑万维甚至宣称“天工”大模型已经非常接近OpenAI ChatGPT的智能水平。ChatGPT是基于GPT3.5大模型,所以把这个版本命名为“天工3.5”。昆仑万维研发团队2020年从一亿级模型做起,上升至十亿级模型,再到百亿级模型,在三年后将研究成果放入大模型之战,选择开源的方式入局。
特点:偏向C端的语言大模型