NVIDIA为自动驾驶汽车开发打造超级计算机

2024.05.05

    6月18日，NVIDIA宣布推出全球速度排名第22位的超级计算机－ DGX SuperPOD，清晰地诠释了为何人工智能的领先地位需要由最佳的计算能力来支持。 DGX SuperPOD为满足企业的自动驾驶汽车部署项目提供了所需的人工智能基础设施。
    该超级计算机系统的搭建，仅用时3个星期，采用了96台NVIDIA DGX－2H超级计算机与Mellanox互联技术。其处理能力高达9．4 petaflops，能够用于训练安全自动驾驶汽车所需要的海量深度神经网络。
    基于DGX SuperPOD的设计，客户可通过任意DGX－2合作伙伴购买整套超级计算机系统，或者其中的一部分。
    自动驾驶汽车的人工智能训练可以说得上是密集型计算密的终极挑战。
    一台数据收集车辆每小时能生成1 TB数据。整个车队经过数年行驶后，其数据量将会很快达到几PB（千兆兆字节）的量级。这些数据会被用来根据道路规则对算法进行训练，并且还会被用来找出车辆内运行的深度神经网络的潜在故障，然后在连续的循环中再次训练。
    NVIDIA人工智能基础设施副总裁Clement Farabet表示：“若要保持人工智能领先地位，则需要在计算基础设施方面保持领先。很少有像训练自动驾驶汽车这样对人工智能又如此之高的需求，其需要对神经网络进行数万次的反复训练，以满足极高的精度需求。对于如此大规模处理能力而言，DGX SuperPOD无可替代。”
    DGX SuperPOD内含1，536颗NVIDIA V100 Tensor Core GPU，由NVIDIANVSwitch及 Mellanox网络结构相联接，为其提供强力支持，使其能够以同等大小的超级计算机所无可匹敌的性能处理数据。
    该套系统能够不间断运行，优化自动驾驶软件，并以前所未有的周转时间（turnaround time）反复训练神经网络。
    例如，DGX SuperPOD软硬件平台能够在不到2分钟的时间之内完成ResNet－50训练。在2015年，该人工智能模型推出的时候，即便采用当时最先进的系统 – 单颗NVIDIA K80 GPU，也需要25天才能了完成训练任务。而DGX SuperPOD生成结果的速度较之加快了18，000倍。
    具备同等性能的其他TOP500超级计算机系统都由数千台服务器构建而成，而DGX SuperPOD占地面积更少，其体积比这些同等系统小400倍左右。
    如今，NVIDIA DGX系统已经被众多有着大规模计算需求的企业机构所采用，例如宝马、Continental、福特与Zenuity 等汽车公司，还有Facebook、微软与富士胶片等公司，以及日本理化学研究所与美国能源部实验室等研究领域的领导者。
    DGX SuperPOD不仅能够快速运行深度学习模型。得益于其模块化和企业级设计，该系统还能够以极快的速度完成部署。
    其他同等规模的系统通常需要6－9个月才能完成部署毕，而对于DGX SuperPOD而言，在工程师采用经过验证的规范性方法情况下，其仅需3个星期即可部署完毕。
    通过构建像DGX SuperPOD这样的超级计算机，使NVIDIA从中学会了如何设计面向大规模人工智能机器的系统。这是超级计算机技术领域内的一大进步，这让大规模计算能力得以跨出学术界，为那些想要使用高性能计算加快其各种计划的交通运输公司及其他行业所用。
    对于那些还没有部署人工智能的数据中心的企业机构而言，如果他们希望使用NVIDIA SuperPOD架构来满足其需求，NVIDIA则可以通过DGX－Ready Data Center计划为其提供简单化快速的部署。
    NVIDIA的数据中心托管服务提供商将随时帮助企业客户构建并部署基于DGX系统的世界级人工智能数据中心。