南京智算中心:四大环节提供全链条算力

IT创事记

    人工智能是新时代的宠儿,它是无限生产力的创造者,也是有限算力的“吞金兽”。
    有统计表明,AI模型训练所需的算力平均100天就会翻番,这意味着对算力的需求每隔5年要翻十万倍以上。
    显而易见,人工智能发展速度越快,潜在的算力缺口就越大。据信通院测算,2020年中国人工智能产业规模为3031亿元,占全球市场近三成。IDC预计2021~2024年,中国人工智能市场年复合增长率将高达30.4%。
    这是甜蜜的烦恼,也是严峻的考验。近几年来,在需求牵引、政策支持的双重驱动下,国内以大数据中心、超级计算中心为代表的算力基础设施大干快上——有关资料显示,我国各类算力中心总量超过46万个,总面积逾1000万平米。
    热火朝天与虚火上升只有一线之隔。由于存在统筹失衡、定位模糊、重建轻用等问题,相当一部分算力中心的实际利用率很低,出现局部过剩的现象;而与此同时,供不应求的算力缺口并未缓解,很多地区的算力基础设施从总量到结构都无法满足需求。
    2020年4月,发改委首次将智能计算中心纳入新基建范畴,并出台了一系列配套政策。《IT创事记》认为,这标志着强调统筹规划、合理布局的算力供给侧改革正式启动,其后的发展轨迹也印证了这一点。
    从某种意义上讲,智算中心不只是称呼上的改变,更是应对AI时代算力爆炸性增长的实质性突破,新标杆的示范效应值得期待。
    
    该来的总会来。7月16日,南京智能计算中心在南京市麒麟科技创新园落成并投入运营,中心采用业界领先的人工智能芯片和算力机组,已运营系统的AI计算能力达每秒80亿亿次 (800POpS),成为长三角当前投运的最高算力智能计算中心。
    算力枢纽替代“小、散、乱”
    今年7月初,工信部印发《新型数据中心发展行动计划(2021-2023年)》,明确用三年时间,基本形成结构合理、技术先进、绿色低碳、算力规模与数字经济增长相适应的新型数据中心发展格局。
    如果说新基建将外延扩展至智算中心,是算力供给侧改革的序曲;那么《三年行动计划》则是层次清晰的组合乐章,推动算力供给侧改革向纵深挺进。
    加快建设算力枢纽节点是《三年行动计划》最大的亮点:“推动京津冀、长三角、粤港澳大湾区、成渝等国家枢纽节点适当加快新型数据中心集群建设进度,实现大规模算力部署,满足重大区域发展战略实施需要。”
    国家信息中心信息化和产业发展部主任单志广认为,长三角是未来智能经济发展的桥头堡,智算中心将有效推动整个地区智能产业创新集聚与经济能级提升。另据IDC与浪潮联合发布的《2020~2021中国人工智能计算力发展评估报告》,长三角共有杭州、上海、苏州、南京四个城市位列中国AI算力城市排行TOP 10,足见区域内算力用户规模大、应用需求强。
    立足南京市、面向长三角、辐射全中国,正是南京智算中心的核心定位,投运算力的规模标志其枢纽节点的地位业已形成。
    当然,规模不是衡量枢纽节点的唯一指标,能否吸引AI产业链的龙头参与建设和运营,才是更值得关注的参数。
    四大环节提供全链条算力
    南京智算中心由南京市麒麟科技创新园携手浪潮、寒武纪共同打造,采用占据国内市场半壁江山、获得全球AI基准测试冠军的浪潮AI服务器算力机组,搭载数千颗寒武纪思源270和思源290智能芯片及加速卡。已投入运营的AI算力规模,1小时可完成100亿张图像识别、300万小时语音翻译或1万公里自动驾驶AI数据处理任务。
    类似南京智算中心这样的算力枢纽节点,借助生产、聚合、调度和释放四大关键作业环节,可以提供人工智能全链条所需的算力服务。
    在生产算力层面,智算中心在算力集群设计上兼顾超大规模AI训练和弹性扩展的多任务推理、训练任务并发需求,通过浪潮NF5468 AI服务器,搭载寒武纪MLU270智能加速卡达成相关目标;同时采用寒武纪MLU290智能加速卡,借助芯片间高速互联技术MLU-Link?,提供高达512TOPs INT8超强算力,构筑强大、高效、易用的算力生产能力。
    在聚合算力层面,基于智能网络和存储技术,采用200G IB芯片间高速互联网络,搭配全闪超高速存储系统。针对多任务、大规模、高并发、高吞吐的AI应用,为算力机组集群构建高带宽、低延迟的通信系统和数据平台,提供弹性、可伸缩扩展的算力聚合能力。
    在调度算力层面,通过AI算力调度平台,结合虚拟化、容器化等技术,将算力资源池化为标准算力单元,通过适应性策略及敏捷框架对算力进行精准调度,保障AI开发和业务的高效运行。作为连接上层应用与底层计算设备的核心能力,智算中心将聚合的CPU和寒武纪GPU卡等算力资源进行标准化和细粒度切分,满足不同类型智能应用对算力的多样化需求。
    在释放算力层面,基于主流人工智能理论算法,采用全流程软件工具,针对不同场景应用需求,通过机器学习自动化的方法,产出高质量的AI模型或服务,促进算力高效转化为生产力。
    智算生态强化聚集效应
    算力枢纽不仅是算力上下腾挪的中转站,更是催生人工智能良性生态的孵化台。
    南京智算中心采用“一中心、一底座、N平台”的模式运营,即一个算力支撑中心、一个PAAS生态拓展底座、N个应用平台——重点支撑科技金融、智能制造、智慧零售、智慧医疗、智慧交通、气象研究等领域应用创新。
    参差多样,是幸福之源;产、学、研多方力量的聚合,也是人工智能生态健康的保障。依托南京智算中心,以“基础设施+框架+算法”为底层基础、以AI模型生成和多场景应用为特征的AI技术生态链正在逐渐形成。
    
    目前,清华大学、中科院计算所、南京信大气象科学技术研究院与一批优秀企业,已依托智算中心开展人工智能研发应用创新。其中,中科院计算所利用智算中心的算力平台开展蛋白质结构预测的AI推断服务,唯仁科技、南栖仙策、南京图泰等企业在智慧医疗、智能车联网、智能制造、自动驾驶等领域进行AI模型的训练推理任务研究。
    
    智算中心致力于填平AI技术研发与行业应用之间的鸿沟,与浪潮倡导的元脑生态与“左右手”合作理念不谋而合。浪潮信息CEO彭震表示:无论是擅长AI产品开发与咨询的“左手”,还是侧重AI方案实施与服务的“右手”,元脑生态中的4000多家人工智能合作伙伴,未来都将依托南京智算中心,形成有效的生态汇聚,共同落地更多高质量的创新成果和行业应用。
    截至2020年底,南京人工智能产业布局已初具规模,集聚人工智能企业近300家,核心产业规模超过60亿元,带动相关产业规模近800亿元。集算力生产供应、数据开放共享、智慧生态建设和产业创新聚集四大功能于一体的智算中心,将为AI产业化、产业AI化和政府治理智能化提供有力支撑。
    “引导新型数据中心集约化、高密化、智能化建设,稳步提高数据中心单体规模、单机架功率,加快高性能、智能计算中心部署,推动CPU、GPU等异构算力提升,逐步提高自主研发算力的部署比例”——这是最新发布的工信部《三年行动计划》中算力提升赋能行动的重点。逐条对照,南京智算中心仿佛按模定制,先行一步后,更要行稳才能致远。