“戈登贝尔奖”之后，中国需要什么样的超算呢？

2024.03.30 本来科技

上个月的SC21大会，中国超算除了摘得国际超算应用领域的最高学术奖项“戈登贝尔奖”引起轰动之外，还有一件大事。那就是在当地时间11月18日公布的IO500榜单上，Top3 都是中国自研系统，其中两席是华为已经大规模商用的存储系统。

    全球 HPC 存储系统性能排名 IO500 榜单，Top 3 均为中国自研系统，其中华为独占两席。来源：io500．orgIO500是高性能计算领域针对存储性能最权威的世界排行榜之一，它反映的是存储系统可为实际程序提供的I／O性能，是衡量超级计算机应用效率的重要指标，具有极高的参考价值。
    而存力比之于算力，也愈显其重要性。从近年来入围“戈登贝尔奖”的超算应用及历年获奖情况来看，人工智能＋大数据与超算的融合正成为主流趋势。

    而随着要处理的数据量暴增，高性能计算机也正从以计算为核心向以数据为核心的计算演进，数据密集型超算亦被视为未来发展的主流方向之一。
    华为携存储技术优势，正在这一方向发力。12月10日，华为与湖南大学在国家超级计算长沙中心签署战略合作协议，成立“数据密集型超算联合创新中心”。
    这是我国首个关注于数据密集型超算的联合创新平台。依照合作协议，双方将就项目共推、技术应用、人才培养等联合开展数据密集型超算示范相关工作。
    为什么说数据密集型超算代表着未来超算发展的方向？其建设与应用有哪些技术要求、有哪些难题？未来该如何培育发展？
    天才的预判，院士的首肯
    在展开我国计算技术产业话题之前，有一个美日欧都无可比拟的前提，那就是中国势必是拥有最海量数据、最多元数据类型、最丰富应用场景的地方——这些特征随着信息爆炸愈发突出。可以说，抓住了大数据和数据价值挖掘这个“总龙头”，就抓住了未来计算产业竞争力的“牛鼻子”。
    有时候不得不佩服天才大师们的先见之明——传奇的1998年度图灵奖得主吉姆·格雷（James Gray，或称詹姆士·格雷）早在2007年的演讲中就提出，随着数据的爆炸性增长，科学计算（即“第三范式”）中的数据密集型范式将成为一个独特的科学研究范式，即第四范式。而超算也将从科学计算工具，向着基于大数据、人工智能（AI）的“数据密集型科学”演进。
    稍展开一下解读，可以说，作为构建下一代数据产业和科学计算的基石，超算无疑握着一把开启未来数据文明的钥匙。
    吉姆·格雷那次演讲的题目为《科学方法的革命》，这是他留给世人的最后一次演讲。这次演讲17天后，吉姆·格雷以一个帆船运动爱好者的身份，消失在了茫茫大海，至今杳无音信。

    1998年度图灵奖得主吉姆·格雷（资料图）
    但他这一论断影响深远。在今年的全国高性能计算学术年会（CCF HPC China 2021）上，中国计算机学会高性能计算专业委员会（CCF高专委）发布了由华为公司与上海交通大学等多家高校、长沙超算等多家超算中心等主编的《数据密集型超算技术白皮书》（下简称《白皮书》）。《白皮书》由中国科学院院士陈国良作序，他在序言中直言：“智能世界运转的速率直接取决于数据分析的效率。”

    陈国良院士（资料图）
    陈国良院士作了个贴切的比喻：如果说数据是数字世界的新石油，那么“预计到2025年占比将超过80％的非结构化数据”就是石油中的页岩油。和页岩油一样，非结构化数据的“开采”（价值挖掘）难度更大，需要依赖更加专业化的工具。
    他谈到，工具之一就是《白皮书》中提到的“面向海量数据的高性能数据分析”（High Performance Data Analysis，HPDA）。为帮助理解，陈院士还贴心地写下一条等式：
    HPDA＝ HPC ＋ BigData ＋AI
    从这个等式出发，陈国良院士对《白皮书》提出的以数据为中心的超算系统架构“深以为然”，他说：“以数据为中心也就是以价值为中心。”
    “如果把IT系统跟人或组织的关系比喻成好朋友，那么IT系统以前更多是一个随叫随到、提升效率的小助手；而以后，IT系统更多地是参与人或组织在商业世界里的价值共创。”几乎与吉姆·格雷异曲同工地，陈国良院士认为，“超算系统将更多地从一个业务支撑系统走向一个价值生产系统”。
    10大场景，需求摆在桌面
    如果说我们能从前贤的见解中可以得出什么结论，至少有一条：未来数据密集型超算的发展，与我国科技创新迈向更广更深息息相关。
    而与此同时，如何建设和发展数据密集型超算的问题也就摆在了桌面。
    超算作为国之重器，当然不能“先射箭后画靶”。而要明确构建数据密集型超算的技术要求、勾勒数据密集型超算的轮廓，最必要的是要弄清楚，未来将会有哪些数据密集型的超算应用、它们给超算提出了哪些要求和挑战。
    这些问题本来挺难回答的，但好在“刚想睡觉就有人送枕头”——前文提到的《白皮书》专门辟以大量篇幅，面向未来3～5年数据密集型超算场景作出了预测。
    这个预测的完整表述是“面向2025年的十大数据密集型超算场景”。这十大场景依次是：基因测序、自动驾驶、能源勘探、气象预测、卫星遥感、类脑科学、高能物理、天文物理、灾害模拟、媒体计算。

    《白皮书》作出以上预测的模型，充分考量了两个维度：场景应用与大数据及AI的相关度、场景应用数据量的规模及市场空间。
    可以看到，这些应用场景，有的是从传统的HPC超算场景逐步演进到HPDA场景，如基因测序，能源勘探等；有的原生地就是HPDA应用，如自动驾驶等。
    另外，从数据规模角度，依照《白皮书》的说法，上述10大数据密集型超算应用场景，数据量规模起步都是PB级以上。
    共48页的《白皮书》，用了近20页的篇幅对表格中前6个典型应用场景作了分析。分析认为，这些应用场景虽然领域迥异、对计算平台的需求也各有侧重，但几乎都共同指向未来超算要满足对海量数据的计算需求、对各类应用之间的高效互通的需求、对大内存的容量要求、对存储的极致性能要求、对高效算力的低功耗或绿色化要求。

    红色虚框中为面向2025的十大数据密集型应用场景
    7项建议，呼唤示范先行
    从需求出发，《白皮书》对数据密集型超算技术的建设提出了7条建议。这7条建议，直指超算自系统架构而上的层层技术迭代，也直面E级超算、EB级应用的“存储墙”“编程墙”“功耗墙”，非常全面，现归纳如下。
    1、采用异构融合的新型 HPDA 架构
    超算最本质的是算力。如今超算多采用异构架构，以让CPU、GPU、FPGA等不同的处理器发挥最大效用。但此举也存在问题，即计算单元各自为战、硬件资源闲时高于用时。《白皮书》认为，超算架构应在异构基础上，再加上“融合”。用异构融合的新型HPDA架构一统超算，能够最大化利用计算资源，更好发挥对海量数据的并行处理能力。

    HPDA 融合架构图
    2、打造存算分离的统一数据存储底座
    数据密集型超算，意味着场景应用中的数据分析处理是“主角”。面对海量数据涌入，超算不能将大量机时浪费在等数据的读写上。这就是传统超算的“存储墙”难题。《白皮书》提出，要打造存算分离的统一数据存储底座，让计算节点共享存储，让热数据、冷数据按需流动。
    另据统计，我国存力与算力之比约为1：2，对应投资约为1：3，而美国这两组数据均为1：1。从数据作为新生产资料的角度来看，存力的基础地位日益彰显；要改变当前“重算力、轻存力”的现状，未来我国还要在存力规划上下功夫。
    3、推进全光化多网融合高速互联网络构建
    海量数据的流动必然依赖高效的网络传输，所谓高效，就是高带宽、高IOPS、低时延。《白皮书》提到，可从器件材料和传输技术两个角度构建未来高速互联网络。材料方面，提倡“光进铜退”，即发展光通信技术；技术方面，推动超算内部计算网、存储网、数据网等的融合，同时降低成本。
    4、使用低碳高效绿色节能的工程工艺
    E级、10E级超算的挑战，除了计算性能，还有一个低功耗的“紧箍咒”。“绿色”是计算科学家们必须要去平衡的一个需求，这就是所谓的“功耗墙”。超算的能耗主要产自对器件的供电和散热，因此要“破墙”，就须提高电源使用效率（降低PUE）和设备能源利用率。当前水冷、液冷等技术发展较快，对降低PUE大有助益，而在提高设备能源利用率方面还缺乏有效措施。《白皮书》提到，使用SSD闪存盘组成的存储系统功耗较低，可作为参考方向。
    5、构建高效并行开发和编译环境
    异构融合的超算架构需要解决CPU＋GPU＋XPU等异构计算部件的并行编程难题，这就是超算的“编程墙”。《白皮书》提出，异构编程架构应该基于现有的经典并发模型，针对程序并行和数据并行，为用户提供方便快捷的工具。
    6、构筑易用的国产应用平台支撑环境生态
    建设超算，应用是目标。超算应用是有门槛的，为此超算供应商常用容器化技术将超算运行环境封装好，让上层应用与底层隔开，使普通用户也能使用超算。不过，即便如此，超算平台因一端连接计算、一端连接行业应用，能够兼具计算知识和专业应用的人才很少，一些共性难题须协同解决。因此《白皮书》认为，要让更多人参与到超算应用开发中，构建良好超算生态。这就要求超算平台要为用户提供简单、易懂的可视化操作界面。
    7、提供智能化集群管理运维平台
    素来超算平台的搭建都“人前风光”，但建设超算只是开始，超算运维从来都不轻松。投射到数据密集型超算，更是要面对不同用户巨量数据的管理，人工干预压力更大。
    《白皮书》提出，数据密集型超算中心未来要逐步实现规划、建设、运维、优化的全生命周期数字化管理，逐步实现自动化、无人化、智能化。但有鉴于运维场景的多样性和复杂性，不同运维场景采用的 AI 算法差异巨大且通用性较差，通常需要多种 AI 算法的组合，智能运维技术的成熟落地仍然是一个长期演进的过程。

    超算从算力服务时代走向数据价值时代，数据密集型超算正当时
    后记
    从上述形同技术要求的7条发展建议来看，数据密集型超算的建设不仅是一项系统工程，同时也关乎超算各项前沿技术的进步与发展，直接影响着我国超算产业未来是否依然具备竞争力。显然，其建设与发展需要广泛发动产学研合作，共同攻关核心技术难题。
    回过头来看，此番湖南大学与华为携手，就数据密集型超算领域涉及的国产自研并行文件系统、算力互联网、智能存储系统、数学库优化等关键技术展开深入合作，就是产学研协同的一次有益尝试；目标就是推进数据密集型超算的示范先行，进而率先推出国际化的测评标准，掌握话语权。
    而纵观美国人制定的各类评测形成的各类榜单对超算发展的策动与影响，其中利害，不必多言。