MaaS，云厂商在打一场“翻身仗”

2024.04.14 脑极体

今年以来，大模型的热度，让云计算产业为之沸腾。要举出一个最有力的证明，应该是：MaaS（Model as Service）这种全新模式的出现，一座座“模型工厂”，已经建起来了。
    所谓MaaS，模型即服务，指的是用户可以直接通过API调用基础大模型，为不同的业务场景，来构建、训练和部署专属模型。云平台会提供从数据、模型到应用服务的全周期管理和工具。
    目前，微软云Azure、阿里云、华为云、腾讯云、百度云、京东云等云计算大厂，都已经推出了MaaS服务。

    云厂商做MaaS究竟是为什么？一个主要考量是，作为IT基础设施服务商，也就是IaaS模式，长期面临价格战的市场竞争，而通过PaaS和SaaS为政企提供ToB的数字化服务，又一直没有完成行之有效的价值回收。
    这种情况下，云厂商急需要找到一种全新的、高价值的商业模式，大模型就带来了这个可能。
    可是，方兴未艾的MaaS，真的能帮云厂商“翻身”吗？
    必然到来的MaaS
    先要声明一下，MaaS模式的出现，以及大量“模型工厂”的矗立，是非常有必要，也是有极大商业想象空间的。
    你可能会问了，连OpenAI的模型访问量都在下降，真的有那么多大模型的训练需求，要用到如此多的“模型工厂”和MaaS服务吗？
    我们的判断是，大模型的产业化之路才刚刚开始，而产业化会催生大量细分的、不同参数、不同规格、不同场景的模型需求，必须提升模型训练部署的效率，推动模型生产走向工业化。不同模型是各式各样的钢材，用来盖起一个个AI应用，那么“模型工厂”就是“炼钢厂”，是一定要建的。
    MaaS模式的必然性，有三个支点：
    第一，需求。通用性的基础大模型，已经被快速填满了。剩下很多企业，更希望调用基础模型的能力来改造自己的业务，或者开发新的AI应用，而这些都需要更懂行业知识、技能更精准、更贴合场景的垂直模型。有数据显示，行业智能化渗透率将从2021年的7%增长到2026年的30%，更多行业的核心业务系统会被大模型能力渗透。所以，对于大模型的生产需求，还很旺盛。
    第二，供给。目前，大模型的生产力依然有限，首先是计算资源稀缺，大模型的训练和推理对计算资源和存储资源有很高的需求，很多企业和机构“无卡可用”，导致无法进行大模型的训练和推理。

    同时，训练专有大模型需要大量的高质量数据，数据清洗、预处理等一系列复杂工程，大大影响了开发效率，训练周期长，无法快速满足业务上线的要求。
    此外，训好的大模型要进行部署和应用，需要考虑到计算资源、业务场景、不同参数规格、网络带宽、安全合规等方方面面的问题，很多企业和机构缺乏相关的技术和经验，前期投入的心血很容易就打了水漂。
    要提高大模型的供给数量和质量，MaaS模式的“模型工厂”一定要建。
    第三，催化剂。云厂商有充足的动力，催化MaaS模式的成熟，并推向市场。IaaS基础设施即服务，造就了公有云的崛起，但IaaS模式的前期基础设施投入大，营收能力低下，积弊已久。PaaS需要云厂商投入大量的人力、回报周期长，SaaS的价值不足，客单价低，还需要大量定制化和运维服务。这时候，通过MaaS这一新模式，向用户全面输送模型能力，是一种高价值、强确定性的选择。
    一方面，大模型庞大的数据规模，会带来更多的计算资源需求和用云量。另外，行业企业用户的定制化需求，可以按项目制付费。大量AI应用程序调用API，已经产生了按token付费、订阅付费、商业版等多种商业模式。
    如此多的商业化前景，就如同一针针强心剂，促使云厂商们加速布局MaaS。
    让我们回归到现实，来看一看国产云厂商，是如何做MaaS这门生意的。
    “前店后厂”的国产MaaS
    今天的整体形式是，国产云厂商的MaaS基本都走向了“前店后厂”模式。
    怎么理解呢？
    云厂商扮演“厂”的角色，是利用基础设施、行业服务能力等优势，和全流程开发工具与套件，满足客户对模型预训练、模型精调、模型部署、智能应用开发等多样化需求，保障客户的大模型能够顺利交付。
    以微软云的Azure OpenAI 服务为例，就支持开发者调用OpenAI GPT-4、GPT-3、Codex 和 DALL-E等模型的API，来构建、微调模型，为应用提供支持。这就是“工厂”模式，Azure主要提供一些企业级功能，如安全性、合规性和区域可用性等。

    而纵观国内云厂商，会同时强调自己“店”的能力。
    云厂商扮演“店”的角色，即还会自己参与开发行业大模型及AI原生应用，把控模型和应用的质量，提供精选服务，进行市场推广和销售。
    比如今年6月份，腾讯云在行业大模型及智能应用技术峰会上推出的MaaS一站式服务，就是依托腾讯云TI平台打造行业大模型精选商店，其中包含了腾讯企点、腾讯会议、腾讯云AI代码助手等多款头部SaaS产品。
    9月华为全联接大会2023，华为云的MaaS服务，则采用了5个基础大模型+N个行业大模型+X个场景模型的三层解耦架构，从L0层的基础模型，到适配行业特征的L1层，以及开箱即用的AI应用L2层，并上线了昇腾AI云服务百模千态专区。
    而10月刚刚举办的百度世界2023，百度智能云的MaaS服务平台千帆，则推出了千帆AI原生应用商店，成为大模型商业机会的汇集地，为商家提供品牌曝光、流量支持和销售资源等支持。首批精选应用包含了百度内部的曦灵数字人平台、百度智能云一念智能创作平台等。

    可以看到，智能时代，垂直模型和AI应用一定会百花齐放，一定离不开模型工厂。但整个阶段才刚刚走出了第一步，目前上游的底座模型并不少，能力也都不差，但如何做出有说服力的垂直模型和应用，难度还是很高的。
    和数字化及SaaS市场较为成熟的欧美市场不同，这一轮国内智能化的主力军是传统行业及企业。很多模型和应用的潜在购买者，对大模型的能力并不清楚，不知道什么模型适合自己的业务，也不知道如何找到需要的模型，更担心自己的定制模型单子太小不被重视……
    而ISV服务商和开发者，担心投入时间精力一整套流程走下来，产品已经落后了，或者找不到客户进行商业变现。
    这种情况下，云厂商仅仅做幕后“工厂”是远远不够的，需要建立一套更完善的模型供应链机制。“前店后厂”就成了国产MaaS的主流选择，“工厂”负责生产，“商店”负责推介。
    而“前店后厂”模式，则大大增加了MaaS的难度。
    突出重围的持久战
    “前店后厂”模式下，云厂商既是生产者，也是销售员；既是ToB服务生，也是ToC开发者。多重身份，不仅让MaaS的竞争要素和难度增多，而且也带来了云厂商与行业伙伴、客户、开发者的种种冲突。具体来说有以下几点：
    想赚钱，只靠基础模型还不够。
    只卷基础模型，像Azure OpenAI 服务那样，以OpenAI GPT-4、GPT-3、Codex 和 DALL-E几个精品为主，是不足以满足企业用户、行业伙伴和开发者的需求的。对于国产MaaS服务商来说，还需要在重点领域，比如金融、教育、政务、工业等高要求、高频次的行业类别上，也做出成熟的垂直大模型，来满足大模型落地行业的需求。

    比如腾讯云的行业大模型精选商店，既提供混元大模型的调用服务，还上架了金融、文旅、零售等20多个领域的行业大模型。华为云、百度云等也不例外，都在“通识教育”的基础上，对大模型进行“专业课教学”，减少大模型走向行业的门槛。
    这就形成了第一个矛盾，云厂商打造行业大模型，需要有大量人才、时间、资源与行业合作，每个重点行业来一遍，投入不菲，周期不短，增加了MaaS的盈利难度。但是，如果云厂商不打造行业大模型，从基础模型到AI应用之间的缝隙实在太大，ISV服务商、集成商和开发者不敢走、不会走，大量需求根本无法满足，也会限制MaaS的增长。
    第二个矛盾，是算力的充沛与成本。
    大模型训练，算力是基础。各个MaaS都将自身的算力集群规模和性能，作为首要卖点之一。
    我们要意识到，算力充沛对云厂商来说，意味着极高的计算资源成本、能耗、运维成本等。大模型训练，需要动辄千卡、万卡的GPU集群，如果一台GPU服务器过热宕机，整个集群都要停下来，训练任务要重启，这对云服务商的硬件性能、运维能力等要求非常高，往往只有几大头部云厂商能支持。
    为了提升推理效率、降低成本，云厂商们也在技术层面展开竞速。比如为了实现AI算力的极致性能，华为云在基础设施之上进行了针对AI云服务的技术优化；腾讯云打造了面向模型训练的新一代HCC高性能计算集群；百度一直通过各种技术优化推理成本，文心3.5版本推理成本较5月刚发布时，下降到原来的几十分之一。一味堆卡不是长久之计，降本增效才是赛点。
    除此之外，基础设施层面，云厂商还面临AI算力国产化、绿色低碳等现实考验。其中，拥有自研芯片的华为云昇腾AI、昆仑芯片的百度智能云，能提供更稳定的底层算力，后续应该会有更多机会。而巨大的计算资源，需要用户规模和使用量级来支撑，随着几大基础模型的优胜劣汰，届时，谁的成本更高、模型使用量更低，就有可能出现资源闲置，届时该如何回收成本，也是一个考验云厂商智慧的问题。

    第三个矛盾，则是MaaS的教具与教学。
    作为“模型工厂”，MaaS平台需要提供大模型的全套全流程开发工具与套件，已经成为行业共识了。
    目前，头部云平台的准备也非常充分。华为云提供了盘古大模型工程化套件，覆盖了数据工程、模型开发和应用开发三大环节。据称，完成一个千亿行业模型端到端的开发，从过去需要5个月缩短到现在1个月，整体速度提升5倍。百度智能云的千帆平台，提供预制数据集、应用范式，以及其他帮助企业应用大模型的工具。腾讯云的TI平台，同样包括数据标注、训练、评估、测试和部署等全套工具。
    如此丰富的工具和平台，相当于把“教具”交到了行业客户和伙伴手中，是不是就能实现大模型的工业化生产了呢？
    显然还不行。要训练好一个垂直大模型，并不是一件简单的事，有些行业企业的数字化程度高、人才队伍强，能第一时间用好MaaS平台和工具，比如金蝶、中软国际等。
    但是，更多行业伙伴和企业客户，就算有了这些工具和套件，没有技术专家深入指导，没有产品经理、项目经理、运营、程序员等手把手教学，很难搞定定制化需求。
    腾讯云的工作人员曾分享过一个案例，在携手中央电视台打造“央视人工智能开放平台”时，面临数据量庞大、形态复杂的问题，导致传统的数据标签体系都无法达标。最后，腾讯云重新构建了一套传媒专属的数据标签体系，同时也研发了创新的“标签权重引擎”，让数据标签颗粒度更细，并按照核心度排序。在这套数据标签体系支撑下，视频编辑用自然语言就能实现跨模态检索。
    显然，MaaS模式也需要云厂商具备ToB服务能力，这是一个慢活、苦活、累活。指望靠MaaS工具“躺着赚钱”，至少目前阶段，是肯定没希望的。

    “前店后厂”的MaaS模式，还有一个隐含的矛盾，就是云厂商也做应用，如何避免与行业伙伴和开发者争利的情况。
    MaaS平台上需要大量AI应用程序，云厂商不可能全部自己开发，必须像Appstore一样，引入开发者机制，鼓励软件企业或个人开发者，来一同基于云平台创造AI应用程序。
    但是，基于通用大模型能做出什么样的AI应用，还有很大的空白，所以云厂商也会自己“打样”，上架一些AI应用。
    比如百度智能云的千帆AI原生应用商店，就上线了百度曦灵数字人直播平台、comate代码助手这类百度自己出品的应用，也有来自合作伙伴WPS365、梧桐招聘助手等应用，并上线了应用精选推荐。
    Appstore曾被Spotify等应用开发者质疑，既当裁判员，又当运动员。那么，“前店后厂”模式下的MaaS平台，也在做AI应用，就必须打消开发者的顾虑，只做“抛砖引玉”式的创意型/代表性的应用，做好业务区隔，联合售卖，帮助开发者打通商业链路，获得经济收益。
    和移动互联网时代开发ios或Android一样，开发生态的繁荣，意味着内容和体验足够丰富，满足用户的诉求，用户规模又会吸引更多开发者前来掘金，形成“马太效应”，让应用商店持续繁荣，用户和开发者都很难轻易切换到其他平台。
    基于大模型的AI原生应用，也是如此。据百度智能云的工作人员透露，百度智能云为什么成为业内第一个发布AI应用商店，就是因为大家都有从众的习惯，目前能做的，就是快，客户的留存率也会更高一些。
    MaaS模式，云厂商比以往更加需要生态伙伴。百度智能云的千帆AI原生应用商店、腾讯云行业大模型生态计划、华为云多样化的伙伴赋能，都说明，不卷应用卷生态，尽量聚拢开发者，是MaaS成功的前提。

    可以看到，围绕MaaS模式的竞争，前程远大，但道阻且长。一旦卷起来，各项成本都会直线上升，形成新的营收压力。而如果不卷，就会眼睁睁错过大模型及AI原生应用的机会，彻底没了从基础设施服务商“翻身”的希望。
    MaaS之于云厂商，并不是一个进退两难的选择困境，而是没有后路的背水一战。关关难过关关过，终有守得云开见月明的一天。