拆解“算力偏科”难题，智算中心下一步向何处去？

2024.04.12 脑极体

    十年前，英国《经济学人》曾用工业用电量为主的指标来评估中国GDP，而现在算力已经成为新的指标。似乎每个企业、每个城市都在努力增加算力。
    一位读者不无困惑地留言，大家都说自己算力有多少FLOPS，能支撑这个大模型、那个大数据，是不是数字越大就算力越强呢？
    还真不是。
    衡量算力水平，除了运算次数，还要看算力精度，也就是能够支持的数据精度和运算复杂度有多高。

    如果说运算次数（FLPOS）代表的是内力值，那么算力精度就像是“身法”，决定了能否用对内力、用好内力。武林对决，有人拿屠龙刀一通乱砍，令狐冲靠独孤九剑剑法一击必中，你觉得谁水平高？
    不同计算任务，对算力需求不尽相同，需要恰当的“身法”，来发挥算力的价值。
    具体来说，根据数据类型的不同，适配的算力精度也有所区别：
    比如科学计算，天气预报、运算化学、分子模型、天体物理模拟等，数据精度要求高，需要双精度算力（64位，FP64），是由超级计算机提供的一种通用算力。

    AI模型训练，自动驾驶、智慧城市、AIGC等业务，需要学习大量数据，训练出一个复杂的深度学习模型，而处理大规模浮点型数据，更适合用单精度算力（32位，FP32）、半精度算力（16位，FP16）。近年来，预训练大模型爆发，涌现出了DALLE、ChatGPT、紫东太初等一波波大模型，参数动辄达到千亿万亿，大模型的高效训练需要用到大量的单精度算力。
    训练好并部署的模型，实际应用时只需要根据输入的数据，推理出各种结论，比如人脸识别、车牌识别、语音识别等，这个AI推理的过程，处理的是整数型数据，更适用于整型算力（INT8）。

    那么问题来了，一般来说，某一个区域内，既有高精尖科研、智慧城市、自动驾驶这类高性能计算，带来了通用算力的需求；又要有AI模型训练、AI应用推理等来支撑产业数转智改，对专用算力的需求也很高。
    如果区域内算力配置不够多样化，少了某一种算力，相当于等用户上了战场对敌时，才发现无招可用或事倍功半，必然会限制当地数字化的发展。
    因此，各地在进行智算中心建设时，从长远来看，就必须考虑算力的多样化、普适性。
    但现实情况是，很多地方的智算中心，处于“先批快建”、各自为战的阶段，由于AI产业／科学计算／产业数字化等迅猛发展，迫切需要补足某种专用算力，应对算力焦渴，缺乏通用算力的统筹规划。
    随着东数西算工程、数字中国等一系列措施的推进，进入“十四五”发展新时期，专用算力的通用化难题，就成为掣肘地方数字经济发展的当务之急。

    前不久发布的《智能计算中心2．0时代展望报告》中也强调，当前个别地区选择的算力配置出现一定“偏科”现象，只能满足一部分细分场景的需求，不能兼顾多产业、多领域对融合算力的需求。需要推动通用算力、专用算力融合，驱动应用走向纵深。
    对于高校、科研机构、企业、政府等各类算力用户来说，算力融合究竟能带来哪些利好？
    破解“算力偏科”，算力融合价值几何？
    一言以蔽之，算力融合，意味着用户可以对不同算力资源随取随用，无论是办公数字化需要的通用算力，还是AI应用需要的专用算力，抑或是气象预报、生物预测等需要的高性能算力，都可以融会贯通、博采众长，支撑自身业务的发展，成为一个算力“通才”。
    从这个角度看，通用算力、专用算力的融合，会带来三重明显的价值：
    一是数字经济的可持续。数字经济已经成为各个区域发展的主调，其中包含的算力应用场景是非常广泛的，根据应用场景来进行算力部署，更快地建立优势。比如某省会城市希望打造人工智能高地，同时高校牵头建立遥感产业集群，专用算力、通用算力相融合，能支撑更加丰富的应用场景，为当地数字经济的长期可持续发展提供算力保障。

    二是综合成本的下降。算力基础设施的建设成本极高，在前期规划时做好多种算力的配置，能使基础设施的利用率提升，既保证算力充足，同时精益地满足各类任务所需，从而提高算力的综合效益，降低算力的使用成本，让区域内的算力更加普惠、更多用户受益。
    三是多元供应的可靠性。算力融合意味着需要不同计算单元、多种架构并存、多种软硬件兼容，新型算力基础设施走向开放、多元、兼容，相当于“不把鸡蛋放在一个篮子里“，能够降低供应链的不确定风险，长期来看能够让算力更加安全可靠。
    算力融合，相当于一个武林高手，无论华山剑法、少林功夫、武当太极，各种”身法“都能信手拈来，那么面对任一种计算任务的挑战，自然可以游刃有余。
    纵横2．0阶段：数字江湖儿女需要怎样的算力底座
    即将到来的数字经济浪潮中，每个人都要化身江湖儿女、弄潮时代，这时候，一个通用性的算力底座，就如同通晓全门派武功身法的“神助攻”，可以提供全精度多元算力，让用户更从容地应对业务变化和挑战。

    国家工业信息安全发展研究中心在《报告》中提出，智算中心在2017－2021年高速扩张的1．0阶段，主要提供的是专用性的算力。从2022年开始进入2．0阶段，需要利用CPU与GPU等加速芯片的异构重合，来实现高精度通用算力和低精度专用算力的融合供应。
    由此可见，智算中心的下一步重点，就是向通用算力底座发展。而建设这样一个通用算力底座，有“一横一纵“两个基本要求：
    一横：多元算力需要多元架构，智算中心必须“横向”兼容。
    智算中心1．0阶段，采用的是垂直一体的烟囱式的方案，针对性地满足高性能计算、人工智能、大数据计算等不同的应用负载，通用性和兼容性比较低。多样化的通用算力底座，要实现不同架构的芯片平台、不同场上的算法模型以及数据集的横向兼容，让用户可以根据业务场景和计算任务选择最适合的算力方案。

    一纵：通用算力需要软硬协同，智算中心必须“纵向”耦合。
    不同技术路线的芯片、算法、模型、应用等要素，需要产业链上下游的打通，解决软硬件兼容性的问题，芯片制造厂、中端厂商和软件开发商，通过软件优化、架构整合和软硬件协同，来提升计算的整体性能。
    打破垂直一体模式，走向“横向”兼容“纵向”耦合，成为智算中心2．0时代的关键，从而支撑千行百业在数字时代纵横驰骋。
    见招拆招：智算中心的未来挑战
    智算中心1．0阶段快速扩张，统计数据显示，目前中国已经有超过30个城市在建设或提出建设智算中心。未来数字经济中80％的场景和算力资源要由智算中心进行承载。这是一个巨大的机遇，但机会越大，所应该承担的责任也就越大。
    如前所说，智算中心在2．0阶段必须走向“横向”兼容“纵向”耦合的目标，饭要一口口吃，算力融合也要一步步走，把每一个环节做好，见招拆招。
    具体来说，智算中心的算力融合，要从四个核心环节来做功，分别是：算力生产、算力聚合、算力调度、算力释放。

    算力生产方面，要具备多样化算力的供给能力。为了实现不同架构芯片的多元化融合，智算中心的体系结构，已经从同构计算走向异构计算，国内外的科技企业如谷歌、英特尔、阿里、百度，都在进行异构计算的研发。《智能计算中心2．0时代展望报告》中，曙光5A级智算中心也凭借全算力精度覆盖、多样化算力供应，成为产业内示范样例
    算力聚合方面，要推动通用算力和专用算力的融合。目前来看，业界各个厂家的智算中心建设理念是比较类似，都在强调融合发展。
    算力调度方面，融合的算力如何灵活、精益地为各行各业所取用呢？这就需要对多样算力进行统一的调度和运营。宏观来看，在东数西算工程的推动下，全国算力一体化网络体系已经初步形成，为智算中心的算力调度建立了基础。微观来看，智算中心的建设者／参与者也开始建设算力运营平台，用精细化、智能化的手段来提高算力运营调度水平，比如曙光智算运营的全国一体化算力服务平台等。
    算力释放方面，算力融合的本质目的是让千行百业用好算力、用对算力，所以多样化算力如何更灵活的释放到数字产业当中去，提供算力服务的应用，是智算中心在2．0阶段的重中之重。

    从产到用、见招拆招，智算中心2．0将是真正意义上的公共算力基础设施，把澎湃的内力与适配的身法，交给千行百业。
    一个全新的数字视界，已经向各行各业的侠士们广发英雄帖。广阔的产业机会，等待着大家去争取，去赢得自己在这个时代的勋章。
    化多元化算力为己用，打开多元化的未来，智算中心2．0阶段，一定会有更多传奇的人和事。