算力战争:从“CPU”进化到“CIPU”
本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议。
凯文·凯利在2015年刊行的《必然》一书中曾论证:“科技在本质上有所偏好,使得它朝往某种特定方向。”在全球经济周期同戚戚的当下,这个特定方向指向哪里,已成为整个商业科技领域最大的命题。
如果从现代商业史上寻找蛛丝马迹,格林斯潘与伍尔德里奇合著的《繁荣与衰退》似乎能够给出一些指引。这部著作作为对美国经济史的考察与分析,在两位作者看来,将衰退时钟拧向繁荣,为为关键的方法论就是约瑟夫·熊彼特提出的“创造性破坏”(creativedestruction):通过大规模的技术与组织创新淘汰旧的技术和生产体系,并建立起新的生产体系。
如果更为具体的考察“大规模的技术与组织创新”如何实现,罗伯特·戈登所著的《美国经济增长的起落》一书是个值得参考的文本。作者通过对过去150年经济数据的拟合分析,给出的相应结论大致在于有形之手与无形之手的共同主导——在萧条周期背景下,前者会策动最广泛的社会资源资助以先进制造业为核心的基础设施建设,后者通过企业家精神的释放与此形成共振,最终实现新的生产体系的建立,以开启新周期。
这既是美国持续繁荣的秘密,也是中国经济起飞的注脚,更是经济发展国别竞争的核心指标。
当周期时钟摆动到21世纪20年代,历史又押着相同的韵脚轮回来过。这一次,从宏观视角细致观察,我们得以发现,这个“某种特定方向”正渐渐明朗:
人类社会正从电力、互联网流量时代,拐入算力时代之中。
01 算力即综合国力
开篇之处,仍要代入一个在我们此前研究中曾多次出现的案例场景:
作为一名司机,你是否设想过这样一个问题——在非极端路况下,为何人们摩肩擦踵在一条小巷里,却不至于交通阻塞,而可以有秩序的通过;但在宽阔的马路上,人驾驶车辆,却往往会因一个小事故而拥堵成灾?
这其中会有物理体积和行为机制的原因,但更重要的一个原因在于,人个体的算力远大于传统汽车驾驶状态下的计算能力。
换言之,拥有更高算力的智能车辆,将会通过智能云计算、边缘计算、仿真沟通等类人手段,通过最优路径解决拥堵问题。而这样的实质,也就是智能汽车与传统汽车最本质的区别:所谓交通拥堵,实质上是算力拥堵。
智能汽车只是以算力为底座的智能经济的一个分部。可以预期的是,在其之外,农业、工业与服务业所辖的种种商业形态,在将基于算力重构之后,新的经济周期便将水落石出。
理解了这一点,也就理解了算力时代的本质价值:处理信息能力具有指数级强势的智能算力,对绝对弱势传统能源经济的平权赋能。
今年3月,由IDC、浪潮信息、清华大学全球产业研究院联合编制的《2021-2022全球计算力指数评估报告》,初步量化揭示了“算力与国力”的基本关系:报告显示,计算力指数平均每提高1点,数字经济和GDP将分别增长3.5‰和1.8‰。
该报告同时指出,全球各国算力规模与经济发展水平呈现出显著的正相关关系,算力规模越大,经济发展水平越高;美国和中国的计算力指数分别为77分和70分,同属国别计算力的领跑者,明显领先其他国家的计算力指数。
由此我们可以得出一个重要结论,数字经济时代,算力正在成为衡量一个国家综合国力的重要指标。
当时当下,算力时代逻辑的逐步呈现,很大程度上是归结于全球在互联网经济时代的基础设施建设——即基于云计算与AI等先进生产力的进一步纵深发展,所自然衍生呈现的结果。这层启示,已经完全还原到数字经济的核心价值之中:
据《云网融合:算力时代的数字信息基础设施》一书统计分析显示,云计算与互联网不断融合之下,算力支撑数字经济向纵深发展,使得我国数字经济占GDP比重由2015年的14.2%提升至2020年的38.6%。
摸着传统数字经济过河,驶向智能算力经济新周期,正在成为全球主要经济体共同的历史抉择。新一轮国别竞争与产业竞争,已经启动:
中国启动“东数西算”战略;
美国“核高基”十四五计划;
日本出台《第2期战略性创新推进计划(SIP)》;
法国出台“人工智能国家战略”新计划;
韩国发布“人工智能半导体产业发展战略”……
在产业竞争维度,“算力+”商业模式,正在成为以互联网经济与高端制造业为代表的先进生产力经济的下一站:“日益优化的高性能计算使得数据价值被充分挖掘并使用,从而推动大规模制造升级为大规模定制、农作物生产开始出现智能预测以及服务领域千人千面的个性化需求日益凸显……”
02 中国的新比较优势
从互联网经济拐入智能算力经济,可以预期的是,新一轮大级别创新周期正在开启。基于以下3大比较优势,我们可以笃定,中国产业经济将在这场“算力战争”中大有可为。
1)有效需求和有效供给
产业竞争,需要知己知彼。
2021年,美国的云计算产业规模占据全球总量超44%,增速超过34%;而中国云计算产业规模大概2300亿元,约占全球总量的13%,增速超过30%,位列全球第二大云计算市场。
从这组比较数据上看,我们的产业基础仍距美国存在客观差距。但不必过于悲观的是,我国在传统云计算的迭代模式——智能云产业的发展势头已经超越美国:2021年中国AI服务器支出规模同比大幅增长44.5%,贡献了上述15个国家AI算力支出增长的近60%。
更重要的是,透过智能云产业的迅猛发展,我们得以看到这样一重事实:中国具备智能算力持续爆发的事实基础——我们有着全球范围内最具质量的有效需求与有效供给。
相关数据显示,全世界在2018年创建、捕获、复制和消耗的数据总量为33ZB(1ZB约相当于1万亿GB),2020年这一数字增长到59 ZB,预计到2025年将达到令人难以想象的175 ZB。其中,中国数据生成速度以超过全球平均3%的速度增长,预计到2025年当年将产生约48ZB,超过美国的约30ZB,成为第一大数据国。
事实上,在疫情的影响作用下远程办公、在线教育、网络会议等新的协作模式开始兴起,这使云计算的市场规模快速提升,基础需求也在不断扩容。更为难得的是,我国在智能汽车、智慧交通、智能电网、智慧城市的智能化推动下,AI算力正成为数智化改造升级的新抓手,成为确保中国算力进入高质量发展黄金时代的客观条件。
而据赛迪研究院观点,2020年我国通用算力规模为77 EFLOPS(百亿亿元次),AI算力为56.23 EFLOPS,到2025年我国基础算力和AI算力总量将分别超过300 EFLOPS和1800 EFLOPS。
而在供给侧,通过在消费互联网时代的长期实践,以阿里云为代表的中国云计算产业链,正从基础算力供应商向智能算力更为有效的供给转变。从近年AI企业核心技术分布看,超过41%的技术集中在大数据和云计算为代表的算力上,这将在各垂直领域加速渗透,使得“中国算力”方案能够成为有效供给。
此外,为了响应“碳达峰碳中和”目标,新型算力中心正成为IT行业绿色供给新方案的代表。我国数据中心年用电量已占全社会用电的2%左右,针对绿色低碳的发展需要,新规划的数据中心PUE(能源效率的重要指标)普遍将不得高于1.3。
目前,云计算厂商已具备提供更低能耗供给的能力,例如阿里云利用全浸没液冷技术,使其仁和液冷数据中心整体PUE下降至1.09,达到行业领先水平。
2)基础设施与核心技术能力
同时,目前世界上大约有600个超大规模的数据中心,每个都拥有超过5000台服务器,其中约39%在美国,是中国的4倍,而中国、日本、英国、德国和澳大利亚的服务器数量总和约占总数的30%。
一边是急剧增长的数据需求,一边是相对滞后的存储运算供给,表明数据中心的建设发展仍要提速。为此,2022年初国务院发文开始正式全面启动“东数西算”战略工程,将在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群。
根据CDCC数据,现阶段西部地区部分数据中心上架率仅为30%—40%,未能满足65%的标准,“东数西算”将有效推动西部现有数据中心上架率提升,并就近消纳西部绿色能源。预计我国数据中心(IDC)市场规模年复合增速在2021-2030年或将达到17.2%,预计到2025年,我国IDC市场规模将达到近6000亿元。
当然,数据中心只是算力的基础设施,而光靠基础设施数量的变化并不足以实现“中国算力”方案。在需求和供给之间、在硬件与应用之间,我们还需要一个高效管控的算力架构来实现两端的联动,保障算力系统的动态均衡,而这却是云计算的传统架构面临的一大挑战。
随着硬件数据维度的快速发展,超大规模的数据扩充将挑战整个行业对数据处理、延时、冗错管理等方面的极限能力,这将令传统云计算架构面临压力考验。
如果把过去十多年云计算分为两个发展阶段,第一阶段就是分布式和虚拟化技术,满足企业上云后的算力弹性需求;第二个阶段是资源的池化,将每个端机的计算和存储分离开,再进行规模化整合,从而提供更大规模的计算和存储能力。但这都是基于CPU为中心的体系构架去做优化,已经触及瓶颈。
所以,行业需要考虑在现有的云计算软硬架构的基础之上作重修或迭代。而在这一时间节点上,“中国算力力量”正在展现出自身的核心技术能力。
以阿里云为例,其于日前提供了它的解题思路,发布了新一代云计算体系架构——CIPU(Cloud Infrastructure Processing Units,云基础设施处理器)。
CIPU是基于阿里云的内部体系创新,将以往以CPU为中心的体系架构变为以CIPU为中央调度的系统架构,CIPU向下接入物理的计算、存储、网络资源,快速云化并进行硬件加速;向上接入飞天云操作系统,管控阿里云全球上百万台服务器,让算力虚拟化损耗降到0,并通过规模化应用RDMA网络技术,让访问云端比访问本地硬盘更快。
实际上,这是云计算系统架构在设计思路上的逻辑转变。
以往的云系统是建立在硬件基础之上,是硬件向上定义软件或系统,是供给决定需求的过程,例如云上的图像运算需求多了,这个时候为了减少CPU的运算压力,会嵌入GPU做相关的运算,但GPU的运作仍需要CPU参与管理,整体的逻辑仍是围绕CPU在扩充,DPU和IPU都是类似的逻辑。随着数据种类和数量的增长,CPU系统管理的复杂度随之增加,新需求并不能得到完美的(无损耗的)供给。
而CIPU的逻辑是从需求端(即飞天云操作系统)向下寻求硬件适配软件的智能解决模块,这一模块无需再通过CPU的控制单元来调配与软件所适配的硬件供给,模块直联各类硬件终端构成一套新的智能云系统管理架构,直接响应飞天系统内的多元化应用需求,实现更智能的软硬一体化。
这套有CIPU加入的新计算架构体系在通用计算、大数据、人工智能等场景中展现了更好的性能。在通用分布式计算领域,Redis性能提升了68%、MySQL提升了60%,Nginx提升了30%。而应用在高吞吐量的互联网业务上,则在相较自建物理机提升了30%的吞吐量的同时高峰期延迟下降了90%。对云端而言,这种提升无疑是巨大的。
事实上,整个产业从最初的分布式到中央调度式,阿里云都是各个时期的话语者。再到如今掀起的智能管控式,以阿里云CIPU架构为代表的国内云计算产业,在强化自身软硬一体化同时,进一步提升行业整体的智能化表达,并融入各行各业的云效率语境中。
3)全面的场景反馈链路
在消费互联网时代,中国挖掘互联网应用场景的步伐大幅领先于世界,越来越多的场景实现了供需两端的数字化联动、个性化呈现,使得“中国算力”能够依附在场景和链路反馈的循环上,实现“消费、算力、商业”正反馈的飞轮效益。
还是以阿里云为例,作为国内甚至亚洲最大的基础云供应商,阿里云涉足的行业早已从电商拓展至互联网、新零售、物流交通、金融、制造、医疗健康、政府等多个大领域,汇集成百上千的细分场景,已成为“中国算力”最具代表性的公司。
如今,阿里云的角色正从IaaS供应商转向更为开放式的IaaS+PaaS的云计算供应平台,将为更多场景提供云生态服务,例如这次的CIPU架构,从飞天云操作系统向下定义硬件;此前的“云钉一体”,将钉钉系统深入整合至阿里云平台,这均是为多元化应用服务生态奠定基础。
我们看到,在金融领域,阿里云为华瑞银行提供金融一朵云服务,帮助后者的线上金融安全成本下降80%,云中控台使人效提升3~5倍不断释放云下管理成本;
在工业制造领域,阿里云和攀钢合作,从冷轧板的表面检测的视觉AI服务开始,然后进入炼钢核心的工艺优化,利用智能化的参数调优模型,为企业带来一年1700万的直接效益,大大增加了企业拥抱数字化转型的信心;
在生命科学领域,阿里云为华大基因可伸缩性云平台架构,每天处理测序数据几十TB,帮助后者实现22小时内完成千人基因组分析的生产提升。
所有这些案例都会像毛细血管一样,通过算力的推动最终汇聚在中国数字经济的主脉中,成为我们跨入经济新周期的生产资料。同时,它们也是国别算力战争的各个对垒点,是影响总战局的关键因素。
03 结语:一场穿越周期宿命的挑战
一言以蔽,以智能云计算为重要内核的算力战争,本质上是全球经济穿越衰退周期的必由之路。和历史上每个长波经济周期一样,这是必然要穿越过的宿命挑战。
从第一次科技革命至今,时间跨度将近250年。约60年康波周期嵌入,人类社会经历了4轮完整的经济产业周期,分别对应着人类社会的机械化、电气化、信息化、网络化进程。
从1998年至今,各类经济危机在亚太、欧美相继爆发,全球经济已进入第4轮长周期的下行周期。历史告诉我们,每一轮周期都有上行期和下行期,后者往往会孕育新一代产业变革。
一如凯文·凯利所言:“科技在本质上有所偏好,使得它朝往某种特定方向”。移动互联网经济之后,智能算力经济已经呈现出解锁当前经济周期的应然与必然性,它将成为新一轮科技和产业革命的核心生产力。
这场面向未来至少30年的“算力战争”,虽然中国产业经济已经具备了先发竞争优势,但不可否认的是,我们面临的竞争劣势与优势一样清晰可见——主要集中在芯片半导体所处的硬件基础层领域。就像每一次智能硬件的革命性变化离不开产业环境的真实需求一样,可以预期,作为算力之母的中国半导体产业,也需要完成新的协同式进化。
从“CPU”进化到“CIPU”,“中国算力力量”正跨出重要的一步。