重读百度:文心一言意味着什么?

新熵

    AI原生时代正在加速到来。
    @新熵 原创
    作者丨樟稻  编辑丨伊页
    2022年11月30日,人工智能领域可能也迎来了与网景导航者的问世同样重要的关键时刻。当天,OpenAI的首席执行官山姆·阿尔特曼发推文称:“今天我们发布了ChatGPT。欢迎点击这里与它聊天。”
    没承想,这一应用以迅雷不及掩耳之势成为众人茶余饭后讨论的话题。据瑞银的一份报告显示,在ChatGPT推出仅两个月后,它的月活用户已经突破1亿,成为史上用户增长速度最快的消费级应用程序。
    随着ChatGPT的爆火,眼下其产生的巨大吞噬力如同黑洞一般,吸引着国内外各大科技互联网企业,纷纷宣布要在ChatGPT背后的大语言模型赛道布局。
    在外界看来,大语言模型的成熟是人工智能里程碑,更是分水岭,这意味着AI技术发展到临界点,也同样预示着将对原有商业模式进行重塑。由于大语言模型影响最大的将是搜索引擎行业,市场纷纷联想到百度。
    作为国内搜索引擎和人工智能的代表,百度自然不会错过这次机会。此前在2月7日,百度确认大语言模型名为“文心一言”,英文名“ERNIE Bot”,预计三月份完成内测,面向公众开放。
    就在2023年2月22日,百度发布了截至2022年12月31日的第四季度及全年未经审计的财务报告。2022年,百度实现营收1236.75亿元,归属百度的净利润(非美国通用会计准则)206.8亿元,同比增长10%。第四季度,百度实现营收330.77亿元,归属百度的净利润(非美国通用会计准则)53.71亿元,同比增长32%。2022财年,百度核心连续四个季度业绩超市场预期。
    辅以财报数据,我们可以尝试探寻,在人工智能领域深耕数十年的百度,能否乘文心一言东风完成自我变革,引发行业“重读”。
    01
    搜索的代际变革
    
    早在ChatGPT发布的第一天,就有生成式AI要取代搜索引擎的声音出现,原因在于,ChatGPT本质上是自然语言生成式AI,天然适用于搜索场景,提供高度智能的对话式搜索结果。
    对此,行业形成的共识是,ChatGPT在中短期内仍无法完全取代传统搜索引擎,但将会加速搜索引擎演化进程,并在中期形成以传统搜索为主、ChatGPT类模型为辅的新搜索引擎形态。也就是说,生成式AI是搜索引擎的新奇点。
    这与百度的想法不谋而合。
    今年1月Create AI开发者大会前夕,百度搜索宣布将基于百度自研的生成式模型,升级“生成式搜索”能力,并指出,生成式AI和搜索引擎是互补关系而不是替代,搜索底层技术和AI底层技术是相通的。
    更早之前,百度董事长兼首席执行官李彦宏曾在一场内部直播中表示,AIGC(AI生成内容)和ChatGPT这些都是AI技术发展到一定地步后产生的新机会。“这个事情很难,但百度必须要做。”
    彼时,市场还在观望百度将如何参与这场热潮,答案很快被揭晓——2023年2月7日,百度官宣即将发布的大模型新项目:文心一言(英文名ERNIE Bot)。
    此后时隔一日,经媒体披露,百度董事长兼首席执行官李彦宏2023年一季度OKR关键任务为“引领搜索体验的代际变革”。显然,文心一言将在这轮变革中起到核心作用。
    譬如,文心一言是搜索引擎实现“模糊搜索”到“精准推送”跨越的关键:生成式AI问世之前,搜索引擎以“模糊搜索”为主,用户需要根据在搜索引擎中打入关键字找到需要的内容或链接,而通过文心一言,用户可以通过自然语言交互的方式轻松获得需要的内容或链接,且内容较为精准,即“精准推送”。
    与此同时,生成式内容也会极大丰富内容生态和内容供给,让成熟的搜索业务和搜索体验焕发生机。这在于,决定一个内容产品平台优质与否最关键的因素是内容数量、内容质量、客户互动。
    从这个角度来看,文心一言势必提高百度在内容层面的核心驱动力。例如,文心一言可有效对已有信息进行语言整合、文字输出,人类只需扮演提供灵感的角色,AI将协助创作过程生成个性化的文本内容。
    至于被市场关注的生成式AI整合进搜索引擎对于商业模式的挑战,百度并没有这方面的担忧。
    首先,百度营收更趋多元化,非广告营收占比逐季增加。根据财报数据,2022年Q4,百度核心收入为257亿元人民币 ,其中,广告收入为181亿元人民币,非广告收入为76亿元人民币,同比上升11%,主要受百度智能云及其他AI驱动业务的推动。
    其次,文心一言对于广告业务更是一次重大利好。原理很简单,有机器学习行业人士解释道,“从商业模式的角度,广告业务最大的关键点是平台的控制力,平台的控制力越大,粒度越细,变现的空间越大。”
    可以预见的是,伴随文心一言接入搜索,除开因文心一言带来的DAU及用户使用时长的攀升,同时搜索将能够充分利用类ChatGPT技术完善升级,形成搜索代际变革。
    02智能云有了最新解
    
    文心一言为搜索业务带来的改变毋庸置疑,而在搜索之外,一场云计算行业的“AI浪潮”,也正在酝酿当中。
    需要了解到,百度整体划分为三条核心业务线,一是成熟的移动生态业务,二是快速发展的智能云业务,三是未来硬科技的智能驾驶业务。当下,智能云已经成为百度的第二增长曲线。
    
    今年1月5日,IDC发布《2022 H1中国AI云服务市场研究报告》,数据显示,AI公有云服务厂商市场格局相对稳定,2022上半年百度智能云仍然稳居第一,整体市场份额占比28.1%,这也是百度智能云连续四年市场份额第一。
    从这方面来看,凭借智能云“云智一体”的独特竞争优势,百度将帮助企业实现云和AI技术与业务实践的结合,为企业实现全场景的解决方案,加速企业数字化转型、产业智能化升级进程。
    眼下,在ChatGPT爆火后,微软宣布Azure OpenAI服务全面上市,通过该服务可以访问OpenAI开发的AI模型。目前,已经使用该服务的客户有半导电视台、毕马威、RPA厂商Moveworks等等。
    对于微软而言,自2017年转变战略,由“移动为先,云为先”转向“智能云、智能边缘计算”,为AI、云计算、数据等领域服务,AI已经成为微软赢得下一时代的重要棋子,也是此次从ChatGPT受益的前提。
    而百度也可将文心一言通过百度智能云提供给企业和机构客户,在同一思路下,文心一言将作为云业务的一部分,为百度智能云赢下更多的市场空间。
    如同百度集团执行副总裁、百度智能云事业群总裁沈抖所述,文心一言是基于百度智能云技术打造出来的大模型,它将根本性地改变云市场的游戏规则,云服务将从数字时代跃迁到智能时代。
    这里其实还有一笔“隐藏收入”。考虑国内生成式AI的创业潮攀升,算力需求将成为摆在面前的一大问题。对此,根据投资机构A16Z最新推测,生成式AI市场里的大量资金,其实最终流向了基础设施公司。
    A16Z估计,应用程序公司平均将约20%-40%的年收入,用于推理和定制化的微调。这部分通常直接支付给云服务提供商以获取实例,或支付给第三方模型提供商,后者将大约一半的收入投入于云基础设施。
    除此之外,训练着自有模型的初创公司们,已经筹集了数十亿美元的风险投资,其中大部分(早期阶段高达80%-90%)通常也花在云服务提供商身上。
    据此,有理由推测,生成式AI总营收的10%-20%将流向云服务提供商。百度作为在AI领域最有话语权的国内云厂商,无疑是生成式AI初创公司的最佳选择。
    总体而言,伴随大模型、AIGC为代表的AI应用不断成为行业热议话题,AI原生时代正在加速到来。而早期就选择在智能云方向深耕的百度,理所当然成为国内最为受益的云厂商。03借由文心一言,重读百度
    
    眼下,国内众多科技企业纷纷开启军备竞赛,一个问题也随之被抛出,谁能在大语言模型的竞争中抢占先机?从这个角度来看,已经有超过20年发展历史、最鲜明的标签始终是AI的百度,无疑是“无冕之王”。
    早在2010年,百度开始探索AI技术,成为中国最早布局AI技术的巨头企业。在这十年中,百度在AI技术研发上的投入早已超过1000亿元,几乎构成了百度过去十年的主旋律。
    从本次财报中也能看到,2022全年,百度核心研发费用达到214.16亿元,占百度核心收入比例达22.4%。过去十年,百度的年研发投入占营收比例均超过15%。
    持续高强度研发投入,使百度的AI 技术全面领先。根据《2022 年百度人工智能专利白皮书》,截至2021年底,百度全球人工智能专利申请超2.2万件,其中中国专利申请量超1.6万件,授权专利超4600件。
    
    去年12月27日,百度智能云发布国内首个全栈自研的AI基础设施“AI大底座”,并全面升级25项产品和技术。简单来说,AI原生时代,百度把芯片、大模型、深度学习框架等高门槛的技术,变成像水电一样供客户按需取用。
    聚焦到开发大语言模型需要的技术上。人工智能的快速发展依赖于三个核心要素:数据,算法,算力,在这三项上,百度在芯片层、框架层、模型层和应用层进行全方位布局,具备坚实技术底座。
    数据层面,大语言模型训练使用主要来自互联网的文本数据库,而百度的搜索业务在真实数据和用户需求理解方面积累有先发优势,这些大规模结构化非结构化数据有望支撑文心一言的充分预训练。
    算力、算法层面,百度自研AI芯片昆仑,可为不同场景中的AI应用提供多元化、高性能、弹性易运维的算力服务。此外,百度拥有多个云计算可用区、庞大的超算集群,奠定大模型训练的基础设施。
    再结合与GPT3大模型对标的百度文心大模型——2021年发布的“鹏城-百度·文心”(ERNIE 3.0 Titan)参数规模已达到2600亿,是目前全球最大的中文单体模型。
    
    从这几方面来看,得益于四层技术栈,在大语言模型相关技术的科技竞赛中,百度在中国乃至全球范围均具有综合优势。
    据了解,目前已经有包括互联网、媒体、金融、保险、汽车、企业软件等行业的近300家头部企业宣布加入百度文心一言生态,百度的AIGC生态圈已初具雏形并即将快速拓展。
    随着文心一言商业生态的逐渐成熟,后续对百度业务(搜索、云业务)带来的赋能,势必将引发行业“重读”寄身于AI信仰的百度。