除了算力，AI超算还将解决数据团队的“要素配置”难题？

2024.04.05 智能相对论

    文｜智能相对论
    作者｜叶远风
    对CT图像分析，分割出结节；
    对结节进行定量定性分析；
    对随访病人记录其结节在时间上的变化，形成动态跟踪；
    对各类信息综合考量，判断结节类型；
    甚至，自动生成报告……
    找寻、分析、跟踪、判断、总结，这是山东聊城某三级医院CT检测室里，一套AI系统帮助影像科医生对肺结节进行诊断的过程。
    随着AI医疗影像开始广泛落地，越来越多的医院，尤其是基层医院开始享受到切切实实的“医疗技能”普惠。聊城这家医院的系统来自北京一家AI创新科技企业，在2018年，其专门针对肺结节的系统就已经安装超过一百家医院，处理了超90万病例。
    这几年AI医疗影像热潮迭起，其中肺结节诊断又被认为是“入门”级能力，导致业界对落地成果的出现并不算敏感，而事实上，CT断层成像作为分辨率非常高的三维成像，每个病人基本上都有几百张断片成像，AI系统需要处理的数据量十分庞大，应用落地一直是一件充满挑战的事。
    这意味着，能够符合医疗需要并实现快速迭代的AI系统，其背后一定需要越来越强大的算力来加速模型的训练。
    一个现实是，算力价值凸显，甚至成为阻碍企业发展的桎梏（不仅限于医疗影像领域）——这也一定程度上解释了，为什么当初医疗影像领域的初创企业一窝蜂上马，但能活下来出成果的很少，除了开发能力不济，很有可能是没有找到合适的算力资源。
    解决算力难题，成为内部数据科学团队的当务之急。
    AI超算——人工智能数据中心的小型化，问题的答案？
    一位从事AI医疗影像的专家曾这样阐述过算力的重要性：
    由于模型训练经常需要调整某些参数或者尝试不同的模型，算力不够，每个调整都可能需要等上几天才能出结果，这导致模型优化缺乏效率，甚至因为时间太长都忘记了当初的测试目的。
    几乎所有AI场景对算力的需求都在加速膨胀，过去一些年，市面上能够提供给数据科学团队的算力形态，在一定的条件下都未必能很好地满足需要，尤其是主流的基于CPU的庞大数据中心，在计算能力上离支撑快速迭代要求的算力水准还有较大差距。
    甚至，由于数据科学团队无法找到合适的算力供给而导致项目搁置或企业消亡的案例屡见不鲜，业界呼唤新的解决方案。
    需求变化推动着供给变革，算力供给形态这些年也在持续进化，其中，一类可以承担人工智能数据中心职责、提供符合需求算力的产品——“AI超级计算机”开始走向台前。
    开篇的北京AI创新企业能走下来，除了团队在美国积累了一系列经验等原因，恰当的算力供给也不可忽视，其命名为σ－Discover Lung的智能肺结节分析系统的开发，采用了来自NVIDIA的DGX Station加速神经网络模型的训练。
    以小型化服务器系统的形式，NVIDIA DGX Station主要通过互联的GPU以及大容量内存，来实现一体式AI数据中心的功能。
    而这种产品的出现，其本质上是算力供给形态适应市场需求的一种进化，即人工智能数据中心的小型化——通过新的GPU芯片以及适配的主板与整机系统，大幅度提升算力性能，形成在外形上如同个人计算机产品一样的“AI超级计算机”（以下简称AI超算），告别CPU产品的冗重与低效。
    从具体参数看，AI超算表现出十分超前的性能。
    不久前国内某龙头科技企业帮助武汉建设的AI数据中心投入使用，其峰值性能为100 petaflops，相当于50万台个人PC的算力之和，而作为AI超算的DGX Station，其最新产品单台可提供2．5 petaflops的算力，即只需要40台就能在量级上与一个地区数据中心的峰值能力持平。
    而在具体场景中，很多组织也在通过AI超算获得算力。
    中科院深圳先进技术研究院医工所在医疗影像图谱分析领域借助AI超算进行神经网络训练，相比传统CPU计算方案，单台搭载4个V100 GPU的DGX产品，提升训练速度40倍以上，大大减少了模型训练的时间。
    由于心血管的复杂性，定向攻克心血管CT图像识别的科亚医疗，需要高精度的AI模型来支持血管的精细重建及功能的准确分析，必须通过大量多维度多模态的医学影像进行训练，参数庞大而传统的算法和工具平台无法满足这种需要。
    采用AI超算后，科亚医疗的数据处理和训练速度得到了极大提升，其解决方案“深脉分数DVFFR”实现了92％的检测精准度，避免了非必要的冠脉造影，减轻了医生的工作负担和患者的手术痛苦及经济负担。
    可以看到，AI超算正在满足不同类型组织中的数据科学团队需要。
    除了算力，AI超算还将解决数据团队的“要素配置”难题？
    除了性能表现，在过去，一个数据科学团队要完成算力体系的搭设，往往还需要一套包括各种要素的体系：
    要配置计算硬件；
    要搭设用于各种开发目的的软件；
    要有AI工程师；
    要运营维护；
    甚至有时还要考虑设备的散热降噪……
    “麻雀虽小也必须五脏俱全”，很多数据科学团队显然缺乏条件进行配置，而因为投入庞大且未必能符合算力要求，即便是大型组织也面临尴尬的选择。
    而AI超算这种算力形态或能通过一体化的方式规避这个“要素配置”难题，这类产品并不要求复杂的安装过程，甚至不需要IT部门的帮助，当缺乏这些要素（典型如AI工程师）时，数据科学团队仍然可以实现即插即用、一站式的计算能力配置。
    这意味着，那些非AI专业领域的团队，不需要学习深度学习知识，不需要对AI框架、模型有十分深入的理解，甚至不需要自己配备数据模型，只需要有数据集，就能轻而易举地完成AI数据训练与模型开发工作。
    毫无疑问，AI超算的这种特性，对那些相对于AI专业来说的“传统”行业，例如汽车制造、生物制药、光伏产业等，十分友好。
    在国外，宝马工厂就利用人工智能工作组设备NVIDIA DGX Station训练和模拟出从零部件到装配产线的“数字孪生世界”，帮助产线实现更好的效率与稳定性，为宝马每天超1万辆汽车的订单生产贡献力量。
    构成AI超算即插即用特性的能力有很多，软件系统方面操作系统、开发框架甚至各个场景的预训练模型整合最为典型，软硬件一体化协同让数据科学团队基本上无需再花太多心思到开发环境搭设上。
    例如，在暨南大学信息科学技术学院计算机系，其教学与科研往往有多个数据团队在同时使用算力设备，DGX Station AI．超算产品的OS自带的多用户、多任务管理功能，能够让不同数据团队甚至不同成员在工作组设置下，按照不同的计划同时进行各自的实验，大大提升了资源的利用效率——这种多任务并举的情形，在众多组织中都广泛存在。
    此外，由于台式PC式的产品形态，在企业办公室、实验室、科研机构，甚至在家中工作的数据科学团队都能很容易通过AI超算配置自己的人工智能数据中心，进行深度神经网络训练、推理与高级分析等计算密集型AI探索。
    用通俗的话说，DGX Station的出现，更像是为组织内的数据科学团队打开了“懒人模式”——他们只需要聚焦于算法模型的创新即可，其他相关的工作都被一个一体化产品“包圆了”。
    小结
    如同PC的发展，从一间房到半张桌，从KB到GB到TB，从专业团队操作到人人可用，AI算力设备也在经历类似的过程，高能力、低门槛，优质算力资源正在实现更好的触达，让组织的数据科学团队更好地获取匹配的算力。
    而从AI医疗影像场景可以看出，正是因为现实场景应用对AI有着越来越深刻的需求，才不断倒逼着数据科学团队以更快的方式来实现模型创新与迭代。这意味着，AI落地越广泛和深入，最终传导到数据科学团队，就是对算力条件越来越高甚至必须一次次突破常规的要求。
    AI超算成为了AI应用创新的起点，但它也是AI应用落地的结果，市场需求始终“水涨船高”，算力形态的进化，还将继续。
    ＊本文图片均来源于网络