大厂抢做ChatGPT,百度能否狂飙?
光锥智能文丨光锥智能 周文斌
ChatGPT席卷全球,在中国叠加出了一个更强冲击波。
如今,从市值千亿的互联网企业高管,到路边卖菜的大爷大妈,大家都乐此不疲的在谈论ChatGPT,比如事前让它帮忙“算一卦”,或者聊聊谁将被优先替代。用网友的话说,ChatGPT出现之后,就像村里来了个免费算命的。
当然,要说通用人工智能取代大部分人类的工作那肯定还比较遥远,但它仍然在科技圈扔下了一枚原子弹。
在二级市场,包括百度、网易有道、360等几乎所有和ChatGPT沾上边的企业,股价都在近期拔地而起。而在股价高涨的背后,企业也都在试图搭上ChatGPT这辆快车。
2月7日开始,百度率先宣布了自家类ChatGPT产品的名字,之后网易有道宣布在教育场景研发类ChatGPT技术,阿里、腾讯、京东也都纷纷表态。
但从全球范围来看,ChatGPT这颗原子弹还是率先在搜索引擎领域炸开。
比如微软拿到ChatGPT之后的第一件事,就是将其和搜索引擎Bing结合,并且已经在近期展开内测;谷歌也闻讯而动,仓促发布Bard,并也表示要在搜索领域落地。在国内,百度文心一言发布后,CEO李彦宏今年一季度的OKR也被媒体扒了出来,写着要“引领搜索体验的代际变革”。
除了搜索之外,ChatGPT的应用也在向其他领域延伸,比如微软计划将其接入包括云业务在内的所有产品线。百度文心一言发布后,小度随后发布了首款搭载ChatGPT同源技术的平板产品。除此之外,以ChatGPT为代表的大模型在自动驾驶、翻译、文本撰写等方面也都有落地。
显而易见,AI将会逐渐波及到几乎整个信息技术行业——让所有的业务用AI重新做一遍。
而在中国,百度是第一家公布类ChatGPT的公司,也是最大的搜索引擎公司。那么,在All in AI之后的第六年,ChatGPT来了,百度将会发生哪些变化?机遇和挑战,哪个对百度更多一些?
01 谁能率先做出中国ChatGPT ?
2月7日,百度公布了自家类ChatGPT的产品名称文心一言,成为ChatGPT席卷全球之后第一家跟进相关产品的国内企业。从这往后,网易有道、京东、阿里、腾讯纷纷表态,相关计划已提上日程。做一款类似ChatGPT的产品,成为当前许多企业最紧迫的一件事情。
不过,虽然现在投入类ChatGPT研发的企业如过江之鲫,但也有业内人士指出,大多数做同类产品的企业只是在原有的产品里加入了一个BOT,因为并不是每家公司都具备自己建语料库和特征工程的能力,毕竟做这件事情不仅花钱多,而且效果还不一定好。
所以这里面其实就涉及到一个问题,即做一个类ChatGPT产品到底需要具备哪些底层能力。
比如ChatGPT基于GPT-3.5这个大语言模型训练,使用了约45TB数据,包含约1万亿个单词的文本内容。这些数据显然不是从网上爬取下来就能用,有做模型训练的工程师就提到,他们之前训练模型时使用了某社交平台的数据,导致该模型“除了骂人什么都不会”。
所以对于模型训练来说,高质量且大规模的数据来源本身就是一个问题,而要训练如此大规模的数据也太烧钱,有数据显示,GPT-3训练的硬件和电力成本就达到1200万美元。
这其实也是为什么OpenAI和Anthropic会分别接受微软和谷歌投资的原因。除了背靠大树好乘凉之外(给到充足的资金和落地场景),微软、谷歌都分别和OpenAI、Anthropic签订了大型的云计算供应合同。就像周鸿祎说的:“这个东西最终还是要拼算力的。”
除了算力的支持,ChatGPT的训练需要引入“人工标注数据+强化学习”来不断Fine-tune(微调)预训练语言模型,以此来让大语言模型(LLM)学会理解人类的命令指令的含义,以及让LLM学会判断对于给定的prompt输入指令(用户的问题),给出什么样的回答才是优质的。
整体上,这都反映了ChatGPT背后,对于大语言模型、数据来源、特征工程等更具体的工程性的问题。所以就像张朝阳在节目《星空下的对话》中一直坚持的那样,ChatGPT的产生,是从量变到质变,它积累了很多年,绝对不是一个新企业进去就能做好的技术。
那什么样的企业更适合做中国的ChatGPT呢?周鸿祎的答案是有搜索业务的公司,他认为做搜索的公司在这方面有许多优势。
比如在算力方面,做搜索的公司都有服务器集群。在数据积累和自然语言处理方面,搜索引擎本身需要每天在全网爬取所有的网页,而人类真正积累的知识库就存在在这些网页里;同时搜索本身就需要做大量的自然语言处理,和人类知识标注,这些都是GPT模型必备的基础。
“GPT模型做出来之后,它实际上像刚具备学习能力的小朋友一样,并不会马上表现出很强悍的智能,它需要用户不断的使用,而搜索引擎每天有巨大的用户流量,有用户每天的carry,有搜索词可以对它进行修正和持续不断的训练,这个飞轮才能不断的越转越快。”周鸿祎提到。
而回过头来,从搜索业务的角度来看,国内做ChatGPT最有优势的自然是百度,作为看家本领,百度搜索坐拥千亿级全网索引,覆盖超50亿实体的中文知识图谱。
此外,从2017年百度宣布All in AI到今天的6年多里,百度还建立了全栈AI技术构架,百度将这样的技术构架分为四层,分别是芯片层、框架层、模型层和应用层。
比如在底层算力层面,百度在2020年发布了第一块专注于数据中心和云计算业务的量产AI芯片昆仑芯1代。目前,昆仑芯已经量产了两代,并达到数万片规模部署。
比如在框架层,百度飞桨深度学习平台集深度学习核心框架、基础模型库、端到端开发套件和丰富的工具组件于一体,到2022年5月,飞桨官方支持的产业级开源算法模型超过500个,发布了23个PP系列模型。到2022年12月,飞桨已汇聚 535 万开发者。
而基于飞桨深度学习平台,百度训练了文心大模型。在去年AI绘画火热的时候,百度基于文心大模型推出了AI绘画平台文心一格。
到2022年11月,文心已累计发布11个行业大模型,涵盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等领域,推动行业的智能化转型升级,这也让百度在大模型的应用上积累了丰富的经验。
整体上,从算力到应用,百度在各个层面都有关键的自研技术,这其实也是为什么百度能在ChatGPT上线仅仅两个月后,就能迅速宣布推出自家的类ChatGPT大模型,并给出具体上线日期的原因。
有业内顶尖的NLP专家对光锥智能表示,认为百度的NLP能力在中国是最好的,但真正做出像ChatGPT同等水平的产品,可能至少还需要一年。不过百度已经确认,文心一言“3月和大家正式见面”。
02 搜索对百度不只是防御战,更是一场攻坚战
正如最适合做“ChatGPT”的是搜索公司一样,ChatGPT落地的第一战也将从搜索展开。
比如微软在“拿到”ChatGPT之后,第一件事就是将其与Bing搜索相结合,紧跟着谷歌也表示将推出类似的模型,并以“搜索伴侣”的形式使用。
在国内,百度发布文心一言的第二天,有媒体就扒出来了李彦宏2023年第一季度的OKR—“引领搜索体验的代际变革”。搜索,这个互联网1.0时代的业务在人工智能时代被ChatGPT再次推到了风口浪尖上。
作为第一家将搜索和ChatGPT结合的企业,微软目前已经开放融合了ChatGPT的Bing的全球内测。
新版本的Bing没有搜索栏,取而代之的是一个写着“向我提问吧”的对话框,用户可以在其中输入问题并展开对话。
和传统搜索只能通过关键词给出结果展示,然后由用户自己在海量信息中筛查有效内容不同,升级后的Bing可以帮助用户完成这个信息筛选和内容整理过程。
比如根据微软发布会上的展示,用户可以让新版Bing编写一份为期五天的墨西哥城旅行行程单并且转化成一封电子邮件,随后发送给他的家人。除此之外,在Bing给出的示例中,还涉及到包括做计划安排、写诗和创作故事、制定菜单、提供买车建议等等生活的方方面面。
如果说上一代搜索引擎搜索的是信息,那升级后的搜索引擎搜索的就是知识,并且可以通过这种方式,成为用户的“全职助手”。
事实上,随着移动互联网的发展越来越成熟,搜索作为PC互联网时代的产品一直都面临着许多挑战。
比如移动APP将互联网的信息割裂成一个又一个孤岛,在这样的背景下,搜索变得越来越场景化,搜索需求也在被不断分化。比如越来越多年轻人将小红书作为搜索的第一选择,同时微信、今日头条、知乎、B站都有自己的独特的信息和展现形式。
而随着搜索的场景和需求被逐步解构,这块业务放在公司整体估值上也通常会被低估。而目前,无论是百度还是谷歌,搜索业务在营收中的占比都在60%左右,这其实也直接影响了百度和谷歌的估值。
但新一代产品的升级,再次让市场对搜索引擎可以应用的场景有了更多期待,估值也自然水涨船高。一个最直接的表现是,在宣布自己类ChatGPT产品文心一言的名字之后,百度股价当时就上涨的超13%。
图:近3个月百度股价走势
如今,随着ChatGPT对传统搜索能力的提升,“搜索”这个产品的定义也将被改写,所以这不仅对百度来说是一场“老树焕新”的机会,对于只在全球搜索市场占比2.46%的微软必应也是难得的一次开疆扩土的机会。
所以说,推出中国版ChatGPT,然后接入搜索,对于百度来说不只是一场防御战,更是一场攻坚战。
03 用AI将传统业务再做一遍
除了百度、微软和谷歌之外,AI对企业的影响也越来越大。
1月27日,美版头条BuzzFeed宣布使用ChatGPT来创作之后,股价在两天里暴涨了306.94%。2月8日,网易有道宣布投入到ChatGPT同源技术在教育场景的落地研发,当前股价盘前涨超20%。
类似的例子还有很多,最近只要有公司宣布正在研发类ChatGPT的产品,无论是否有实际进展,股市都会先涨为敬。
虽然这种现象背后有炒作和跟风的因素,但这其实也宣告了一种潜在的变化,即二级市场的投资者对企业估值逻辑的改变。
在互联网行业的估值逻辑里,我们通常更关注营收、用户规模、MAU等数据及其增速,但如今投资者更关心一家企业是否具备下一代技术能力。
而在这个时代,AI已经被当成底层技术,被认为是今后推动企业发展的重要底层驱动力。
而具体到百度、微软或者谷歌这样的企业来说,ChatGPT要改变的显然不只是搜索,而是所有的业务线。
以百度为例,在云业务上,百度一直强调智能云的标签,其特点它能够将AI的能力赋能到具体的场景中,比如实现某些具体场景的数据识别、清洗、分类的自动化等等,并以此来提高效率。
如果百度智能云与百度文心一言结合,那使用百度智能云的企业就可以直接调用文心一言的能力来解决自己场景里的具体问题。
这其实也是微软为什么需要将ChatGPT接入它的Azure云服务中的原因。所以这其实代表一种趋势,即在未来的云业务中,竞争将越来越聚焦智能,而不只是存储带宽和算力。
从最新的财报数据来看,百度2022年三季度核心收入为人民币252亿元,同比增长2%。其中,广告收入为人民币187亿元,相比第二季度增长10%;非广告收入为人民币65亿元,同比增长25%,主要受百度智能云及其他AI驱动业务的推动。而随着文心一言接入百度智能云,显然这样的驱动力还将持续增长。
除此之外,大模型也已经成为自动驾驶能力提升的核心驱动力。
比如通过10亿以上参数规模的大模型训练小模型,能够显著提高自动驾驶的感知泛化能力。这种技术诸如特斯拉、毫末等自动驾驶企业都在应用。
具体到百度而言,百度自动驾驶基于文心大模型数千种物体识别能力训练的图文弱监督预训练模型,能够大幅扩充自动驾驶语义识别数据,如特殊车辆(消防车、救护车)识别、塑料袋等,自动驾驶长尾问题解决效率指数级提升。
截至2022年第三季度末,百度Apollo自动驾驶出行服务平台“萝卜快跑”向公众提供的乘车次数已累计达到140万,是全世界最大的自动驾驶出行服务商。而随着文心一言在百度自动驾驶方面的应用,或将加速推进百度自动驾驶的落地和服务的增长。
除了智能云和驾驶业务外,百度的一些创新业务也将受到类ChatGPT产品的影响。
比如小度智能音箱,根据RUNTO1月份发布的2022年中国智能音箱市场调研报告数据,2022年中国智能音箱综合全年销量仅2631万台,同比下降达 28%。
对于智能音箱,许多购买过的用户都表示更像一个鸡肋,所谓的智能更像是一个“智障”。而且相比于其他电子产品,当前不同品牌之间的智能音箱功能基本雷同,也没有太多革命式的创新可以刺激消费者换代。
而类ChatGPT应用出来之后,与智能音箱结合必然会变得更加智能,而有作为私人秘书一样的ChatGPT作为样例,智能音箱必然也将打开更多刚性的需求场景。
比如百度旗下的小度音箱在2月8日就已经宣布推出旗下首款搭载ChatGPT同源技术的教育硬件产品—小度光学护眼学习平板。使用这款新的产品用户可以体验作文批改和主动润色等AI功能。
据了解,用户在该产品上已经可以体验作文批改和主动润色等AI功能,更多基于ChatGPT同源技术的功能和体验后续将在该产品陆续上线。
就像小冰公司CEO李笛所言,对于科技企业来说,它的商业格局由它的技术创新所代表,这在全球范围内都一样。大模型的出现打破了之前已经进入瓶颈的商业格局,大模型代表一种新的思想,如果你使用,就有可能抓住未来几年集中的创新,如果不使用,你就可能在这个新的时代落后了。
如今,行业结合ChatGPT已经成为一种趋势,比如有广告公司已经开始使用ChatGPT撰写营销文案,有新闻网站开始使用ChatGPT编写新闻等等。
比如2月14日,包括澎湃新闻、每日经济新闻、重庆日报报业集团在内的7家传媒巨头同时宣布将全面体验并接入文心一言的能力。
作为文心一言首批生态合作伙伴,这些媒体或能借助AI的能力,在智慧内容、数字文传、产教融合、智能营销等方面实现产品和内容创新,并带来颠覆式变化。而显然,未来这样的生态还将扩展到更多的行业。
就像20年前互联网可以将传统行业重做一遍一样,未来AI也将重塑目前大多数行业,这个过程中,许多商业价值也将得到挖掘。而当AI的潜力在具体的业务上得到发掘,如百度、微软、谷歌等企业价值也将面临重估。
市值排行榜或将面临一次新的洗牌也犹未可知。