“大建设”时期，AI算力何去何从？

2024.04.20 科技云报道

算力就是生产力，得算力者得天下。

    随着新一代人工智能技术的快速发展和突破，以深度学习计算模式为主的AI算力需求呈指数级增长。数据显示，在1960到2010年间，AI的计算复杂度每两年翻一番；在2010到2020年间，AI的计算复杂度每年猛增10倍。
    面对如此大的模型和复杂的计算，提升AI算力迫在眉睫。毕竟，在人工智能发展的三要素：数据、算法和算力中，无论是数据还是算法，都离不开算力的支撑。那么，AI算力从哪来？
    AI算力进入“大建设”时期
    AI算力对于提升国家、区域经济核心竞争力的重要作用已经成为业界共识。《2020全球计算力指数评估报告》显示，计算力指数平均每提高1个点，数字经济和GDP将分别增长3．3‰和1．8‰”。
    对数字经济肉眼可见的拉动作用，成为国家和地方政府加码AI算力的内在逻辑。
    放眼国际，在政府投资主导模式下，美国依托能源部下属6大国家实验室、国家科学基金会支持的依托高校的智能计算中心以及NASA下属的研究中心超级计算中心这三大体系，大力推动算力平台“长出”智能计算能力；欧盟则通过“EuroHPC计划”在欧洲建设8处大规模算力平台，并积极促进与人工智能技术的结合。
    我国AI算力建设也正进入一个“大建设”时期。自2017年国务院印发《新一代人工智能发展规划》以来，我国通过政府投资主导、企业投资主导、政企合资等模式，一批AI算力基础设施拔地而起。
    近年来，随着“东数西算”工程的启动以及智算中心的建设，从国家层面实现有效的资源结构整合，目前全国已有8地启动建设国家算力枢纽节点，并规划了10个国家数据中心集群，以推进集约化、绿色节能、安全稳定的算力基础设施的建设。
    同时，在新基建等政策的鼓励和支持下，各地方政府也在积极开展人工智能计算中心（AIDC）的建设。据智东西统计，2021年1月到2022年2月之间，全国规划、在建和投入运营的人工智能计算中心超过20个，其中8个城市的人工智能计算中心已建成并投入运营的。
    各地的AIDC可提供或规划的算力规模一般为100PFLOPS，相当于5万台高性能电脑的算力。例如，武汉AIDC一期可提供100PFLOPS的算力，从2021年5月投入运营至12月，吸引了超过100多家企业入驻，已孵化出超过50多类场景化解决方案，日均算力使用超过90％。
    在武汉AIDC的算力使用接近饱和的状态下，其在2021年底完成了二期扩容工程，可提供总算力200PFLOPS，正在规划三期扩容工程。在AI产业化、产业AI化和政府治理智能化等需求的驱动下，我国AI算力蓬勃发展。
    据IDC 与浪潮信息联合发布《2022－2023中国人工智能计算力发展评估报告》显示，中国人工智能计算力继续保持快速增长，2022年智能算力规模达到268百亿亿次／秒（EFLOPS），超过通用算力规模。
    预计未来5年中国智能算力规模的年复合增长率将达52．3％，而同期通用算力规模的复合增长率为18．5％。
    AI算力建设仍面临挑战
    目前，AI算力建设还处于初期摸索阶段，存在建设标准不统一，行业定价混乱等问题。
    这些问题正在成为这一新生平台发展路上的滞碍。
    在《新一代人工智能算力基础设施发展研究》白皮书中，国家工业信息安全发展研究中心梳理了AI算力基础设施建设中的四方面问题：国家顶层制度建设和标准体系仍不统一、国内AI芯片等软硬件技术仍受制于国外、大型智算中心面临重复建设且高能耗问题、重建设轻应用导致无法覆盖不同的应用场景需求。
    以行业定价标准混乱为例，国家工业信息安全发展研究中心副总工程师兼信息政策所所长黄鹏指出，功能类似、规模近似的两家智算中心，建设投入相差6倍多。从AI算力的建设成本看，可分为厂房等基建、服务器和计算芯片等设备和产品、后期运维成本和电费等。
    就基建、电费、人员等的成本而言，东西部或许有差异，但并不会差6倍这么多。这也说明了我国还处于智能算力发展的初级阶段，还没有形成标准化的模式。
    黄鹏认为，智算中心的建设可借鉴参考中科院人工智能产学研创新联盟推出的算力价格标准方案——在综合存储、能耗、开发、定制、数据调度等一系列因子并代入明确算法标准后，得出同时具备5P双精度算力（64位）、25P单精度算力（32位）和100P半精度算力（16位）的情况下，智能计算中心的基础设施价格约为1亿～1．5亿元。
    黄鹏建议，地方政府要在建设AI算力平台之前做好充分的调研和论证，以免出现“低水平重复建设”和“与当地发展需求不匹配”的情况。
    如果说“概念混淆”“价格混乱”“重建设轻应用”等问题可以通过充分的调研和论证来规避，但AI算力建设的一些深层次难题还需要全产业链的努力，比如AI软硬件技术受制于国外、大型AI计算中心的能耗过大成本过高等等。
    企业层面要积极探索AI技术研发和模式创新，尤其要加大对AI芯片等核心技术的自主研发力度，联合上下游提升产业链粘合度和生态兼容度，同时加强对算法、框架、模型等软件平台及应用的研发，把技术发展掌握在自己手中。
    场景落地推动AI算力发展
    不可否认的是，一个国家的算力规模越大，经济发展水平就越高。
    全球各国的算力规模与经济发展水平，已经呈现出显著的正相关关系。万物智联时代的到来，AI智能场景的落地，将产生难以想象的海量数据。这些数据将进一步刺激对AI算力的需求。
    《2022－2023 中国人工智能计算力发展评估报告》显示，2022 年中国人工智能行业应用渗透度排名前五的行业依次为互联网、金融、政府、电信和制造。
    与2021年相比，行业AI渗透度明显提升。其中，互联网行业依然是人工智能应用渗透度和投资最高的行业；金融行业的人工智能渗透度从2021年的55％提升到62％，智能客服、实体机器人、智慧网点、云上网点等成为人工智能在金融行业的应用典型；电信行业的人工智能渗透度从2021年的45％增长到51％，人工智能技术融入电信网络的构建、优化，并为下一代智慧网络建设提供支撑；制造行业的人工智能渗透度从40％增长到45％，预计到2023年年底，中国50％的制造业供应链环节将采用人工智能。
    随着新的技术和应用场景的使用量和开发量不断提升，也为AI算力的发展带来了源源不断的动力。
    一是，云端AI模型正向着大型化的方向发展，算力基础设施建设成为竞争的关键要素。2019年谷歌推出的BERT大模型拥有3．4亿个参数，使用了64个TPU，训练到目标精度的花费为1．5万美元。2020，OpenAI推出的GPT－3大模型拥有1750亿参数，训练成本达到了1200万美元。
    2021年，微软和英伟达使用了4480个GPU训练出的拥有5300亿参数的MT－NLG大模型，其训练成本更是高达8500万美元。
    二是，边缘端对AI算力需求快速增加。云游戏、自动驾驶等新兴应用场景对于数据传输的速度和量级都提出了更高要求，在终端和云端间布设边缘端，形成“云－边－端”通信架构已经成为未来技术发展的主要方向。
    边缘计算的需求增长将有效带动AI算力的发展。
    三是，智能网联汽车对AI算力需求提升。自动驾驶汽车渗透率不断提升，汽车驾驶控制系统正向“感知－识别－交互”等智能功能发展。
    因此，智能驾驶AI模型对于汽车从L1／L2辅助驾驶阶段走向L3／L4自动驾驶阶段，并最终实现“智能决策、实时控制”的功能具有重要作用。随着需要训练的各类行驶数据量的增加，以及开发智能驾驶AI模型需求的增加，未来对于AI算力的需求将大幅提升。
    四是，虚拟现实世界的构建需要AI算力支持。AI技术为虚拟现实世界提供建模自动化、交互方式智能化等智慧化赋能，有望提高VR内容生效率和用户的沉浸式体验。VR内容提供商对于快速打造虚拟场景、提高用户感官体验的追求，激发了其对于AI算力的需求。
    结语
    新一轮的算力革命，正在加速启动。作为新的生产力，算力仍面临许多挑战，需要落实集中算力的普惠功能，真正发挥出“电力”和“石油”的作用。
    毕竟，“用得上，用得起，用得好”的算力资源，才是真正的变革生产力的基础设施。
    【科技云报道原创】
    转载请注明“科技云报道”并附本文链接