算力服务网络:一场多元融合的系统革命


    东数西算工程启动小半年后,算力服务网络的概念正在加速升温,频频成为行业论坛上的讨论焦点,参与者也越来越多。
    按照一些算力白皮书中的说法:要推动算力像水电一样,可以“一点接入、即取即用”。想要达成“算力无所不在、网络无所不达、智能无所不及”的远大愿景,就需要算为中心、网为载体、多要素融合的算力服务网络。
    “算力服务网络”的本质似乎并不复杂,即通过系统化的方式解决算力的需求和供给问题。只是在算力成为水电一样的基础设施的过程中,仍然有很多待解的问题,有很多棘手的挑战,很多未知的探索和试错。
    而能否找到一条正确的路径,直接关系着算力服务网络的底色。
    01 单一算力or多元算力
    算力服务网络的概念很热,可外界对算力服务网络的定义尚未统一。
    不同企业对算力服务网络的定义并不相同。有人理解为人工智能算力中心的联网调度,也有人将算力服务网络视为云化网络的演变……现阶段仍处于自圆其说的“狭义”阶段,潜移默化地混淆了算力服务网络的认知。
    算力服务网络作为一个新兴概念,上下游的参与者不计其数,不排除一些企业或个人存在认知上的局限性,遵循传统的思维定式去理解新事物。可回到算力服务网络的初衷,左右行业潮向的可能不是哪一家企业,甚至不是哪一个机构,而是真实存在的市场需求,市场需要什么样的计算服务,深切影响着算力服务网络的内涵。
    中石油BGP处理中心原总工程师赖能和在2022中国算力发展研讨会上,谈及油气勘探的算力需求:油气勘探简单地说就是给地表做CT,一个项目的原始数据往往超过100TB,甚至有些项目的原始数据超过1个PB,就需要巨大的算力作为支撑。由于油气勘探是个庞大的系统工程,流程常常由几百个模块组成,整体的算力要求很高,且每个模块的算力需求、运行精度等也有所不同。
    赖能和在石油勘探中遇到的问题,无疑为算力服务网络服务提供了一个重要启示:在真实的应用场景中,对算力的需求绝非是单一的,而是多元算力的融合,涉及到不同的计算场景、不同的计算架构。
    
    有别于电力服务中的统一标准,不同行业、不同领域、不同场景、不同企业对算力的需求并不完全相同,以至于算力需求可以细分为几百上千种。同时CPU算力、GPU算力、专用芯片产生的算力,不仅计算架构不同,算力的精度也不同。算力服务网络的出现,绝不是基于算力属性的连网,而是输出多元融合的算力。
    倘若只是将单一的智算或超算编织成网,或许可以满足客户在特定场景下的需求,可不同算力平台的接口不规范、调用方式不统一、互相不兼容,等同于人为制造了一个个新的烟囱系统,客户需要花费额外的精力进行适配打通,以解决底层数据的互联互通问题,俨然违背了算力服务网络的初衷。
    也就是说,算力服务网络的正确理解应该是多元算力的融合,是一项AI、Big Data、HPC深度融合调度的系统工程。一个算力服务网络既要容纳多元化的算力,满足不同业务场景的算力需求,也要改变传统的服务范式,按需按量为客户提供计算、应用、数据、调优、咨询、运营、运维等一站式服务。
    02 算力服务网络的“三座大山”
    厘清了算力服务网络的价值,还需要正视算力服务网络面临的挑战。
    就像水电之所以在日常生活和工业生产中扮演了不可或缺的角色,离不开国家电网等企业铺设的一张张密密麻麻的电力网。算力服务网络所肩负的使命,正是让客户能够像购买电力一样购买算力服务“套餐”。
    算力服务网络的愿景不可谓不明确,可想要将理想中的愿景变成现实,现阶段至少存在三个方面的挑战。
    首先是算力分布的不均衡。
    算力不是基础的自然资源,对电力有着极高的依赖性,而国内的电力资源又有着东西部分布不均衡的特点。再加上不同行业、不同领域对算力的需求不同,导致数据中心的分布出现了行业、区域、领域的分布不均,国内计算产业的复杂程度和局限性,已然超过了水和电。东数西算工程想要解决的就是这一问题,也因此经常与西气东输、南水北调等大型工程相提并论。
    然后是算力资源的不标准。
    电力服务中虽然存在380V、220V、110V等不同的电压,仍然可以用“多少度电”描述对电力的需求量,但算力服务中类似的标准还比较模糊,用户很难精准把握需要多少FLOPS的算力。算力服务网络需要同步解决标准化的问题,不断优化算力的度量衡,结合传输、存储等服务的不同需求,对波峰波谷不同时间的算力差异化定价。同样是一个非常复杂的系统级工程。
    再次是算力供需的不匹配。
    随着数字化转型的持续深入,算力需求正在加速迭代:数据量负载从单一负载转向混合负载、应用场景也在经历简单到复杂的演变。即使是工程量不算庞大的图像训练,就包括数据转发、压缩存储、加密解密、文件系统、数据查询、图像渲染等对个计算模块,涉及到多种芯片的算力,一些长尾且刚需的计算场景,可能还需要提供定制的专属服务。
    做一个总结的话,将分布在国内各地的数据中心进行统筹和连接,不过是算力服务网络的第一步,能否通过算力调度系统合理调配、协调一致地提供算力服务,能否基于场景需求向市场输出算力、算法、数据、应用高度协同的一体化资源,同样是算力服务网络服务商必须要应对的问题。
    算力服务网络的根基不在于有多少家企业参与,而是有没有专业的机构或团队对算力服务网络进行标准化、精细化的管理,跳出某项业务升级为算力服务网络的思维陷阱,通过专业的算力服务为数字产业提速增效。
    03 算力生态正照进现实
    沿循这样的逻辑,算力服务网络的进化可以粗略分为两个阶段。
    第一个阶段是平台化,目的是降低算力服务的成本和门槛,就像是一条条高压线将电力输送给一家家工厂;第二个阶段是生态化,也是目前计算市场所处的阶段,目的是产业链协同释放计算服务的内生力量。第一阶段解决了算力服务网络的“可用”问题,第二阶段则是算力服务网络“好用”的不二法门。
    借用中国信通院云计算与大数据研究所所长何宝宏的观点:算力的资源描述、管理、调度和分配,不单单是技术问题,要构建面向市场的经济型的生态,如果没有面向市场的激励机制,没有经济运算系统,这个事情是做不成的。目前已经有企业在做算力的轻结算,也出现了一些方法和工具,仍然有很多问题需要探讨。
    中科曙光副总裁曹振南有着同样的洞察:光有算力并不能产生价值,只有把应用支持好、服务好才能发挥它的价值。比算力平台更重要的是做好算力生态,譬如建立上下游互利共盈的商业模式。
    这些业内专家的观点,传递出的不仅仅是一线参与者对算力服务网络的思考,也再度印证了ABC融合的趋势,即算力服务网络整合的除了多元化的算力,还应包括存储、网络、数据等分散性的资源,以资源池的方式重构算力服务的基础设施,并通过开放API等方式链接上下游伙伴形成广阔的生态。
    其中的底层逻辑在于,算力想要进一步和生产力划上等号,势必要和应用产生更加紧密的联系。农业时代的水力、工业时代的电力、信息时代的网络……这些在人类文明史中留下了浓墨重彩的通用技术,无不依赖于形形色色的应用。
    算力“网络”在某种程度上解决了算力的需求和供给,但在算力交付给用户并产生价值的过程中,需要算力提供商、基础软件提供商、应用软件开发商、数据提供商、设计方、用户等上下游的共同参与,尤其是那些有能力将算力服务开放出去的实力派,不应缺席对应用场景的渗透。
    其实也为我们提供了一个新的视角,在算力服务网络方兴未艾的当下,衡量一家企业竞争力的标准,应该上升到多元化算力的调度能力、一体化的算力运营力以及生态整合的综合能力,这是连接算力价值的必备因素,也是算力服务网络争夺赛的胜负手。
    当然,任何生态都不是一朝一夕形成的,现阶段算力服务网络被讨论最多的可能还是“削峰填谷”技术为核心算力按需调度,但对赛场上的玩家们来说,需要有脚踏实地的耐心,也需要有仰望星空的信心。
    04 写在最后
    按照中国信通院的测算,算力发展指数每提高一个点,GDP增长约为1293亿元,占到整个GDP的1.3‰。算力规模和经济增长所呈现出的正相关关系,无疑为计算产业的蓬勃发展埋下了伏笔。
    何况十四五规划和2035年远景目标中早已明确提出:“加快构建全国一体化大数据中心体系,强化算力统筹智能调度。”在国内经济换挡增长的窗口期,一场系统性的计算服务革命几乎是可以预期的结果。