通用vs垂直,大模型进入走近第一个赛点
深眸财经SHEN MOU
作者:张未
原创:深眸财经(chutou0325)
AI大模型的战场正在分化。
Chatgpt作为导火索,打开了AI2.0时代的大门,而AI2.0的特征便是“产业智能化、数字化”,能够高效地替代人工,广泛地运用到各行各业,所以比起还在探索落地、已过了狂奔期的元宇宙,AI大模型的落地来得更实在些。
最典型的表现就是,AI大模型的出圈更广泛,不止步于B端。比如,即便chatGPT发布半年有余,笔者在上海CBD楼下的咖啡厅还能听到打工人谈论chatGPT的声音;据媒体报道,也有部分企业将AIGC作为生产力工具。
正如阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇所说:面向AI时代,所有产品都值得用大模型重做一次。
大厂、科研机构和创业者,纷纷下场。
大厂有百度文心一言、华为盘古、360智脑、商汤日日新、阿里通义千问、京东灵犀、昆仑万维天工等大模型先后登场,后续还有腾讯混元、科大讯飞星火等大模型排队等着上线。
创业者也不乏名人,搜狗创始人王小川、美团联合创始人王慧文、创新工场董事长李开复等人高调入场AI大模型。
持续了几月有余的AI大模型热,衍生出了两条道路。
1
AI军备竞赛,大模型分化
AI大模型已经进入了竞赛阶段,并且路径逐渐分化。
随着AI大模型逐渐加热,有媒体统计,2月初,东方财富上“ChatGPT”板块还只有29只股票,如今已经达到61支,数量还在不断攀升中。 据不完全统计,截至目前,我国已有超过40家公司、机构发布了大模型产品或公布了大模型计划。
在其中,参与AI大模型这场“军备竞赛”的玩家们也发展出了两个发展方向。垂直大模型和通用大模型,正成为目前人工智能领域的两个主要发展方向。
垂直大模型是指针对特定领域或任务进行优化设计的模型,例如语音识别、自然语言处理、图像分类等。
当前有越来越多的企业加入垂直大模型的赛道。学而思宣布正在进行自研数学大模型的研发,命名为MathGPT,面向全球数学爱好者和科研机构;5月6日,淘云科技宣布推出儿童认知大模型——阿尔法蛋儿童认知大模型,为孩子在练表达、塑情商、启创造、助学习等方面带来全新交互体验。
通用大模型是指能够处理多种任务和领域的模型,例如BERT、GPT等。
由于资金、人才等优势,大厂主要瞄准通用大模型这个赛道。
大厂瞄准通用大模型一方面是能够将AI的能力与自身产品结合,比较有代表性的就是阿里、华为、百度等互联网大厂和科技巨头。
比如,继微软把GPT-4整合进Office全家桶后,阿里“通义千问”也开始接入钉钉,用户可以在文档生成内容,在视频会议中能以参会者为单位,生成每个人的观点和内容。
像是百度的大模型也能结合自身业务,“文心一言”在对搜索引擎的迭代上能够有质的蜕变,能够从用户寻找答案,转换为回答用户问题,包括腾讯“混元”、网易“玉言”、京东“ChatJD”均能够优先应用于自身产业。
另一方面,通用性大模型的适用性较广,先跑赢者能够建立起先发优势,成为AI2.0时代的领路人。毕竟,“跑得快的有肉吃,跑得慢的只能吃剩下的边角料”,这个道理谁都懂。
垂直应用大模型可谓是一股“清流”,由于垂直应用大模型更符合垂类场景的需求、质量比通用大模型更高,也让众多企业看到了其中的机会。比如深兰、出门问问、有道等聚焦AI具体赛道的企业。
垂直大模型的发展主要体现在各个领域的模型性能持续提升,例如语音识别的错误率逐年下降,自然语言处理的语义理解能力不断提升等。通用大模型则在多任务学习、迁移学习等方面取得了显著进展,已经成为自然语言处理领域的重要研究方向。
比如,生物大模型能够提高AI制药效率。国外的研究报告显示,ai可以将新药研发的成功率提高16.7%,ai辅助药物研发每年能节约540亿美元的研发费用,并在研发主要环节节约40%至60%的时间成本。根据英伟达公开资料,使用ai技术可使药物早期发现所需时间缩短至三分之一,成本节省至两百分之一。
在产业角度来看,通用模型就是“百科全书”,能够有问必答,能够适用不同的产业土壤,而垂直模型类似于单领域的专家,虽然专业,但受众注定是少数人。
2
数据是致命伤
垂直大模型的优势在于不够“大”:算力不够大、算法难度低。
王小川在入局大模型赛道后,就一直强调未来发力的方向并不是像OpenAI一样去做AGI(通用人工智能),而是垂直在某些特定的领域去做大模型,并实现落地应用。
广义上的大模型实际上是形容通用大模型,正如“大”模型之称,大模型之所以“大”,就是因为参数众多和数据量庞大,对算法、算力、数据存储空间都有极大的要求,而这些不只是人才可以弥补的,还需要大量的资金。要知道,Open AI的成功也是微软当初用数十亿美金堆出来的。巨大的资金需求,对大厂的研发决心也是一种考验。
过去5年,AI大模型的参数量几乎每年提升一个数量级,例如GPT-4参数量是GPT-3的16倍,达到1.6万亿个;而随着图像、音视频等多模态数据的引入,大模型的数据量也在飞速膨胀。这意味着想要玩转大模型,必须拥有大算力。
做垂直大模型的企业,对比大厂来说,资金、算力、数据较为匮乏,所以实际上和通用大模型玩家不在同一条起跑线上。
正如新能源车离不开电机、电池、电控这三大件,AI大模型则离不开算力、算法和数据的支持。
在算力、算法和数据中,数据是垂直大模型的难点。
三要素中,算法的研发难度相对较低,当前的公司都有自己实现大模型的路径算法,且有众多开源项目可参考。
芯片决定算力,AI大模型整体需要较高性能的芯片完成对整体模型神经网络的训练建构,而当前的芯片自研较少,还是以外采为主,像当前最适应ChatGPT的芯片就来自英伟达的旗舰芯片H100和次旗舰芯片A100。
难点在于数据。高质量的数据是助力AI训练与调优的关键,足够多、足够丰富的数据,是生成式AI大模型的根基。
据OpenAI此前披露,仅ChatGPT3参数数量已达到1750亿,训练资料达到45TB。
由于中国移动互联网发展较为成熟,大量中文数据资源被存于各家企业或机构里,较难共享。
“由于企业的很多业务数据、物流数据、财务数据等都是非常核心的私域数据,很难想象华星光电或者是中石油会把数据拿给人家去训练。”创新奇智CEO徐辉近日受证券时报采访时也曾直言。
以AI制药行业为例,生物大模型就面对被技术“卡脖子”的问题。药物研发对高精度实验数据获取成本较高,且公开数据库中有大量无标注数据,既要利用好大量无标注数据,又要利用好少量高精度数据,所以对模型建构提出了较高要求。
3
谁先赚到第一桶金?
无论何种模式,商业化都是核心问题。从目前拥有大模型的AI玩家来看,都在快速推进赋能和商业化。
通用大模型和垂类大模型,虽走的路不同,但本质还是“一家人”,处于同一个赛道中,所以避免不了竞争这个问题。
对于通用大模型而言,垂直大模型先落地,通用大模型的路会更窄。同样,通用大模型先快速抢占市场后,业务线较窄的垂直大模型,要想赚钱就更为艰难。
在理想阶段中,通用大模型无论是经济模型,还是普世价值,都是要优于垂直大模型的。可是,现实生活不是乌托邦,通用大模型和垂类大模型谁跑得更快,还得看各企业之间的比拼。
从去年大热的AIGC来看。相比在C端让用户以较低的门槛使用AI生成内容,B端被部分市场人士认为将是AIGC更主要的商业模式。
华为也更注重于自己的ToB业务。在发布会上,华为表示,华为盘古大模型主要以AI赋能产业,运用在电力、金融、农业等多个行业,其中CV大模型落地矿山,NLP大模型落地智能文档检索。
像是以搜索引擎为所长的百度,推出了类似GPT-3这样具备搜索属性的文心一言。
除了ChatGPT,实际上在AI大模型这阵风吹起来之前就已有落地的场景了,这些“大”模型,实际以垂直大模型为主。
语言模型:如GPT、BERT等,主要应用于自然语言处理领域,如机器翻译、文本生成、情感分析等。
图像模型:如ResNet、Inception等,主要应用于计算机视觉领域,如图像分类、目标检测、图像分割等。
推荐模型:如DNN、RNN等,主要应用于推荐系统领域,如商品推荐、广告推荐等。
聊天机器人:如Seq2Seq、Transformer等,主要应用于智能客服、智能助手等场景。
金融风控:如XGBoost、LightGBM等,主要应用于银行、证券等金融机构的风控场景,如信用评分、反欺诈等。
医疗影像诊断:如DeepLung、DeepLesion等,主要应用于医疗影像诊断领域,如肺癌诊断、病理学分析等。
比起落地,更重要的是赚钱。
据国盛证券报告《ChatGPT 需要多少算力》估算,GPT-3 训练一次的成本约为 140 万美元,对于一些更大的 LLM(大型语言模型),训练成本介于 200 万美元至 1200 万美元之间。以 ChatGPT 在 1 月的独立访客平均数 1300 万计算,其对应芯片需求为 3 万多片英伟达A100 GPU,初始投入成本约为 8 亿美元,每日电费在 5 万美元左右。
通用大模型在落地场景更广泛毋庸置疑,对于有底气地通用大模型的玩家来说,商业化是其次,垂直类大模型,需要更快的商业化来兜底,所以垂直大模型的落地有更高的可能性和更快地普及速度。
谁能先形成绝对优势还没有肯定的答案。AI大模型的这场“军备竞赛”,正如web1向web2的蝶变,企业争分夺秒地向前跑,谁先抓住了机会,就抓住了市场。
* 图片来源于网络,侵权请联系删除