当挖坑公司摇身变为“云计算网红”,云生意正在经历怎样的革命?

算力智库


    “云海矿山”,没想到“云和矿“终于走到了会师的那一天。
    7月12日,北美上市矿企Hive Blockchain宣布改名为HIVE Digital Technologies,未来将关注提供人工智能(AI)算力服务。
    而CoreWeave,美国的一家针对以太坊的加密货币挖矿公司,却在今年成为了势头正红的GPU加速云服务商。
    挖矿企业集体向云市场开拔,云生意正在迎来一场怎样的革命?
    谁拥有GPU,谁就可以做云?
    
    挖矿企业一键换壳成“云服务商”,背后是数万个GPU给的底气。
    挖矿起家,CoreWeave的神奇蜕变源于2018年/2019年的那个加密寒冬,不少挖矿企业倒闭,他们趁着这个机会不断抄底显卡,数百张变成数万张,数据中心增加到了七个,在这期间,他们一方面尝试为其加密矿工提供GPU云服务器,另一方面,一项新的需求正在喷涌而出,大量依赖GPU加速的企业找到他们,希望他们可以提供算力支持。
    这个意外的商机,成为命运齿轮转动的节点,于是在2019年,CoreWeave开拓了新业务,将GPU云提供给其他企业开发人员,成为云玩家中的一员。
    而这场始于挖矿的奇幻漂流,如今却走向了炙手可热的舞台C位,今年8月,CoreWeave利用手中的NVIDIA H100作为抵押,一举拿下了23亿美元的债务融资,约合人民币165亿元,在此之前,CoreWeave 曾融资 4.21 亿美元,估值超过 20 亿美元,并且与微软签署了AI算力协议,将在未来数年内获得数十亿美元来自微软的投资,用于云计算基础设施建设。
    不仅估值大涨,随之而来的还有疯狂砸过来的订单和翻倍的收入,在接受VentureBeat采访时,CoreWeave联合创始人兼首席战略官Brannin McBee透露,2022年CoreWeave的收入为3000万美元,今年将达到5亿美元,明年已经签订了近20亿美元的合同。
    而按下这一切加速键的是数据中心正在经历的范式转变,大模型的狂轰乱斗,AI高性能计算的崛起让以加速计算为代表的下一代计算能力呼之欲出,而GPU也顺势成为了云市场新的“硬通货”。
    一直以来,云服务的本质就是算力服务,将数据中心内的计算资源(如数据库、服务器存储器)虚拟化,然后租给市场,而传统的数据中心基本都是围绕英特尔、AMD的CPU而建设,CPU主要负责控制和执行指令,可以执行任意程序,相当于整个计算机系统的大脑,而GPU则专为多任务而生,并发能力强,一系列GPU可以并行使用,与服务器、路由器和数据存储一起安置在庞大的数据中心中,足以提供传统计算机所无法企及的计算能力,在AI大行其道的今天,GPU逐渐崭露头角,成为新一代主角。
    谁拥有GPU,谁就可以做云,这似乎成为了新的“胜利法则”,而英伟达凭借其独一无二的芯片优势,正成为这场范式转变背后的真正话事人。
    北京时间8月24日凌晨,英伟达发布了2024年的第二季度财报,对应时间是2023年5月-7月,其实现营收135.1亿美元,熟悉英伟达的人会知道,英伟达的核心业务包括数据中心、游戏、专业可视化以及车用电子四大板块,而在此次披露中,其中数据中心业务营收达到103.2亿美元,同比增长171%,环比增长141%,营收占比拉高到76%,增速远超前一季度,刷新单季最高纪录。
    据英伟达CFO Colette Kress介绍,数据中心收入增长主要得益于云服务提供商和大型互联网公司对AI基础设施的大规模投资。单就国内来看,国内流向英伟达的收入就已达50亿美元,今年英伟达将向百度、字节、腾讯和阿里合计发货约10万块A800芯片,价值10亿美元,另外40亿美元的芯片将明年交付;其中,字节订购的明年发货A800芯片价值约7亿美元。
    值得注意的是,软件和服务类收入成为英伟达新的增长亮点。在第二季财报公布后的电话会上,英伟达表示,目前这块业务收入稳步提升,已经达到每年数百亿美元的规模。未来服务类收入将成为推动英伟达业绩增长的重要组成部分,例如DGX Cloud合作已经获得成功。
    DGX Cloud是今年3月份英伟达在GTC大会上正式发布的GPU云端服务,将AI专用的GPU放到云上出租,使得企业无需采购和拥有服务器,便可通过云服务商合作托管的DGX Cloud基础设施,取得超算电脑级AI运算功能,以目前的进展速度来看,DGX Cloud正成为英伟达新的收入大饼。
    受益的是英伟达但收益的未必是英伟达
    以往,出售算力这种事都是云计算公司在干,它们购买多种型号显卡与人工智能加速器,根据硬件性能或使用时长等方式定价,然后租给下游客户。这个过程中,英伟达将GPU要么卖给云计算平台,要么直接出售给AI公司,比如第一台NVIDIA DGX超级计算机就是在2016年交付给OpenAI的,并没有直接出售算力。而DGX上云,虽然英伟达仍需要将其托管到云平台,但本质上已经是在跨越边界了。
    好端端的芯片公司,为什么选择下场做云?
    在电话问答会上,英伟达官方回答了他们推出DGX Cloud的动力:
    “首先,我们意识到我们与世界各地的约3万家公司合作,其中1.5万家是创业公司,数千家是生成式AI公司。而增长最快的领域当然是AI。我们与全球所有的AI创业公司合作。他们最终希望能够进入全球任何一个云,并因此我们在全球领先的云中建立了DGX Cloud,以便能够与所有AI合作伙伴同时合作。第二个好处是,它使我们的CSP(云服务提供商)能与我们更加紧密合作,以改进为多租户而设计的超大规模计算中心的性能,这些中心从历史上设计用于高性能分布式计算,如生成式AI。因此,能够在架构上密切合作,以提高网络性能和计算性能,效果非常显著。第三,当然,NVIDIA本身使用非常大的基础架构。我们的自动驾驶车队,我们的深度研究团队,我们的生成式AI团队,我们的语言模型团队,所需基础架构的数量相当可观,没有DGX系统,我们的任何优化编译器都不可能存在,现在甚至编译器都需要AI,而且优化软件和基础架构软件的开发也需要AI。众所周知,我们的工程使用AI来设计芯片,我们内部对AI的消费也非常大,我们的机器人团队,Omniverse团队等,都需要AI。所以,我们的内部消费也很大,并将其引入了DGX Cloud。DGX Cloud具有多种用途、多种驱动因素,已经在我们的CSP和开发人员中取得了巨大成功,我们的内部工程师主要是想要更多,这对我们来说是与全球各地的所有AI系统紧密合作的绝佳方式。”
    很显然,无论是基于自身的算力需要,还是为了扩容和收拢更多的AI创业公司,英伟达都没有理由不做云。但恐怕更隐秘的一层原因,英伟达没有透露的是,英伟达的“摇钱树”正在被撼动。
    的确,本轮AI热潮的最大受益者当属英伟达无疑,但收益最多的却未必是英伟达。
    在芯片分销圈,海外A100和H100的每片价格分别涨到了1.5万美元和4万美元,英伟达的中国特供版A800和 H800售价从原来的12万元人民币左右,变成了现在的25万甚至30万元,甚至有高达50万元一块。国内一台配置8颗A100和80G存储空间的AI服务器,价格也从去年中旬的8万/台飙升至当前的165万/台。但这些钱并没有都流入英伟达的口袋,溢价都被渠道拿走了,关键是这种倒买倒卖英伟达还一点办法没有。
    而这种炒作哄抬下的天价,除了头部厂商愿意一掷千金外,却劝退了更多的腰部公司,大多数中小客户都无力承担,只能“望GPU兴叹”了。
    我们知道,本轮AI热潮中除OpenAI外,最出圈的AI公司非Midjourney和Authropic莫属了。前者是一款AI绘图应用,最近同QQ频道合作开启了国内业务,后者的创始人则是出自OpenAI,其对话机器人Claude直接对标ChatGPT。
    但这两家公司都有一个共同点,就是都没有购买英伟达GPU搭建超算,而是使用Google的算力服务。该服务由一个集成4096块TPU v4的超算系统提供,为Google自研。 
    值得注意的是,另外一家云巨头微软,也在今年曝光了Athena芯片,传闻这款名叫Athena的芯片采用5nm先进制程,由台积电代工,研发团队人数已经接近300人,很明显,这款芯片目标就是替代昂贵的A100/H100,给OpenAI提供算力引擎。与此同时,亚马逊的Inferentia和Trainium系列也不甘示弱,可以为客户提供从推理到训练一整套端到端的机器学习计算流程。
    云计算三巨头都在试图抢夺英伟达的蛋糕,根据硅谷风投机构A16Z估算的数据,生成式AI所产生总收入的10%~20%最终流向了云服务商。  
    除云巨头外,英伟达的大客户特斯拉也要自己单干。
    2021年8月,马斯克就向外界展示了用3000块自家D1芯片搭建的超算Dojo ExaPOD。其中D1芯片由台积电代工,采用7nm工艺,3000块D1芯片直接让Dojo成为全球第五大算力规模的计算机。
    渠道对流通溢价的收割,竞争对手的背刺和蚕食,算力供需侧的结构性改变,都促使英伟达调转码头,不甘心只做个“卖铲人”。
    以AI为名的计算革命
    
    世界正在从通用计算向加速计算过渡,这是英伟达在第二季度财报公布后的电话会上得出的一个清晰结论。
    在电话会问答环节上,英伟达表示:对于企业来说,提高吞吐量、提高能效、提高成本效益的最佳途径就是将资本预算转向加速计算和生成式人工智能。因为这样做,你就能从 CPU 上卸载大量工作负载,从而提高数据中心可用 CPU 的数量。你现在看到的公司正在认识到这一转变的开始,并将其资本投资转向加速计算和生成式人工智能。这不是一个单一的应用在驱动需求,而是一个新的计算平台,一个正在发生的新的计算转型。世界各地的数据中心都在对此做出响应,并以广泛的方式进行转变。
    而这种转型正在各行各业发生,譬如Meta最近强调,自从推出Reels和AI推荐以来,Instagram的使用时间增加了超过24%,而微软刚刚宣布的AI合作试点,提高了10亿办公室工作人员和数千万软件工程师的生产力。数百万法律服务、销售、客户支持和教育领域的专业人士可以利用受过培训的AI系统来创造数千亿美元的新市场机会。全球最大的营销和传播服务机构WPP正在开发一个内容引擎,让WPP的艺术家和设计师可以将3D内容创作与生成式AI整合在一起,从而让创意团队能够更快速、更高效、更大规模地制作高质量广告内容。
    除此之外,在药物发现领域,新模型可以减少识别新药所需的成本和时间,还可以创造更个性化的治疗方法。金融领域由人工智能驱动的变革正在改变银行业、股票交易和保险业。AI可以提高天气模型的准确性,以改善公共安全,并对农作物产量做出更准确的预测等等,可以预见,一场以AI为名的计算革命正在席卷而来,计算能力的提高正在赋能整个经济。
    很显然,面对这种变化,英伟达已经在做准备,而云是第一步。
    算力需求直线狂飙,而价格天堑和渠道割据却在加剧供需不平衡,英伟达意识到“GPU+云”才是制胜王牌,用云的方式把用于AI训练的GPU价格打下来,以算力平权来笼络中小企业。
    的确,相对来看,DGX云价格似乎还能接受,配备8个H100 GPU模组的DGX Cloud,每月套餐费只要3.7万美元,相当于单片H100的价格。
    并且这套云服务还和别家不同,它不仅包括算力,还包括一整套 AI 解决方案。DGX Cloud 集成了Base Command Platform(基础命令平台)和 AI Enterprise 的两大配套软件平台,前者是一个管理与监控软件,不仅可以用来记录云端算力的训练负载,提供跨云端和本地算力的整合,还能让用户直接从浏览器访问 DGX Cloud。后者则是英伟达 AI 平台中的软件层,它包含了4000个不同的AI框架,帮助企业开箱即用。除此之外,DGX Cloud 上还提供名为 AI Foundations 的模型铸造服务,让企业用户可以使用自己的专有数据定制垂直大模型。这套软硬件组合起来的完整解决方案让 DGX Cloud 训练速度相比传统的云计算提高了两到三倍,很好的综合了英伟达两方面的强项:AI 生态和算力。这也印证了在今年GTC大会上,黄仁勋所传达的英伟达要做“AI工厂”的想法,从一家芯片公司转向提供AI计算系统的公司,是英伟达应对计算范式转变的布局和战略野心。
    DGX Cloud的推出,对于那些急需算力,但资金又捉襟见肘的AI公司来说,无疑给出了一条可行之路,能让AIGC大模型厂商无需购买英伟达A100显卡等硬件,而直接按需租用云算力平台提供的算力,这使得初创企业或非头部模型厂商也能尝试进入AIGC领域,同时这些企业也将会成为由英伟达一手养成的“Cash Cow”。
    除此之外,英伟达今年还先后投资了CoreWeave、Lambda Labs两家美国的中小云服务商,并且向其倾斜分配稀缺的GPU芯片。据GPU Utils网站预估,CoreWeave向英伟达预定的的H100数量约为35000-40000张。对比来看,谷歌在今年5月发布的超级计算机A3拥有大约26000个H100,亚马逊AWS在7月上线的EC2 P5 虚拟机实例基于20000块H100构建,微软在8月上线的Azure ND H100v5虚拟机,仅仅包含8块H100。这么一看,CoreWeave称自己是全球范围内唯一一家可以“大规模提供英伟达H100”的云服务商也并非虚言,英伟达靠对GPU资源的优先级分配,在持续扩大自己的生态阵线。
    生成式AI起源于云端,在通用计算时代,谷歌、微软、亚马逊三大云巨头,横行四方,英伟达失去做云的先机,而在加速计算时代即将来临的前夜,新的游戏规则意味着新的赛点,无论是英伟达下场做云,还是投资入股中小云服务商,这场云生意的暗战,或许会让我们看到下一代数据中心的更迭,以及伴随而来的全新云格局的涌现。