深度学习的兴起，正推动加速器技术的复兴

2024.04.11

    在今天的商品环境之下，我们似乎已经习惯于每一部智能手机、平板电脑、笔记本电脑、台式机以及服务器都配备着相似度极高的小型芯片组。但回顾历史，我们会发现整个计算世界曾经拥有着高度多样化的硬件“心脏”。如今，这种遗产仍然广泛存在于超级计算这一特定领域之内，各种奇特的硬件努力压榨着每一个可用的指令周期。随着游戏与高强度图形工作负载总量的激增，GPU形式的专用加速器硬件也开始呈现出标准化趋势。更重要的是，深度学习的兴起与指数级增长的复杂化与专业化工作负载推动着专业硬件的又一轮复兴——这一次，企业将自主构建芯片以尽可能多地提升效率与速度。
    从谷歌的TPU到亚马逊的Inferentia芯片，现代云计算企业几乎都需要根据自身在AI前沿建立起的经验打造属于自己的深度学习加速器。这些公司在很大程度上将自己的成果限制在内部使用，不过也有谷歌这样的技术巨头将自己的TPU以“轻量化”Edge TPU的形式提供给外部用户。
    凭借着在GPU设计中积累到的丰富经验，英伟达公司的硬件长期以来一直是深度学习领域的中坚力量，而且从对原有GPU成果的复用转向更积极的深度学习研发。
    而如果以我所关注的统计指标出发，世界各地的企业都在努力打造自己的定制化芯片设计以及COTS硬件组件，旨在进一步加速训练与推理流程，进而构建起规模更大的学习模型。
    与此同时，正如谷歌Edge TPU版本所带来的明确信号，AI技术正日益走向市场前沿。我们正亲眼见证着一系列AI应用的实际落地，包括它们在精度、功耗与移动性等方面做出的不同需求权衡。
    对于那些必须追求最高精度的应用程序，用户仍会将推理流程外包给云端，包括利用有线、4G或者无线连接将输入数据流传输至GCP、AWS以及其它云服务供应商进行处理。
    然而，对于连续实时视频处理（例如远程监控摄像机网络）场景而言，这种带宽受限的解决方案无疑不够实用。这就意味着推理模型需要完全在本地设备上执行。
    部分厂商倾向于使用混合模型，即利用板载过滤机制对内容进行初步识别，而后将复杂度较高的部分交由远程计算资源处理。
    功耗是此类应用的主要限制性因素，要求设计者在原始处理能力、功耗与芯片产生的热量之间进行认真权衡。
    无人驾驶汽车对于深度学习硬件提出的要求更为严苛，对其固定窗口截止时间、高精度、高带宽输入以及低功耗特性都有着具体限定。而且，这一切都必须全面运行在车辆之上，而不可能将现场的数据重新发送回云端。
    特斯拉公司已经推出了专用型深度学习硬件，并宣称其新型芯片代表着无人驾驶功能的未来。有趣的是，这场宣传最终引发了特斯拉与其前供应商英伟达之间的口水战。
    总而言之，新的AI硬件的激增以及越来越多企业选择自主构建推理设备，不禁让我想到深度学习领域的浪潮是否只是又一场淘金热。换言之，面对这么多未知数与漫长的开发周期，今天的前沿芯片是否可能会成为明年的电子垃圾？
    总而言之，目前大部分与深度学习相关的工作负载仍然发生在云端，大多数企业的最佳选项可能是直接将他们的AI需求外包给体量巨大的商业云供应商，从而轻松利用最新一代英伟达GPU硬件提供的全部优质资源与尖端设计。而从TPU与Inferentia芯片，到各类由其它公司发布的面向移动环境的低功耗硬件，云中心到边缘位置正在逐步实现无缝对接。
    在某些情况下，云厂商甚至能够提供同样的训练工作流程构建起精度最高的模型，并允许客户使用完全相同的工具与训练数据。这意味着用户只需要单击鼠标，即可在移动设备上使用低配置低功耗版本。
    最重要的是，深度学习仍是一个动态化极高且快速发展的领域，云计算的支持能够很好地隔离这种变化因素，确保企业客户在无需担心底层硬件的前提下构建并运用最先进的模型。正如基于普通 CPU的云虚拟机能够不断迭代更强大的硬件而无需修改代码一样，云端深度学习服务将在云厂商的巨大投资中得到巨大提升，包括尽可能把不断改进的加速器所带来的复杂性挑战抽象出来。例如，面向谷歌公司上一代TPU加速器构建的代码仍能够在最新一代硬件上不加修改而直接运行，并在不改变代码行、重新编译或者任何重构的情况下实现可观的性能提升。
    对于那些身处深度学习边缘位置的从业者来说，当前的云体系可能正是AI工作负载的最佳运行环境。而从世界上最强大的推理硬件，到面对硬件持续改进所必需的执行稳定性，再到由云到边缘位置的领先无缝式软件开发环境，围绕深度学习建立起来的完整体系正在逐渐成型。
    也许更重要的是，云环境确实是帮助世界一流AI企业完成研发工作的首选平台。通过这一强大助力，AI“帝国”们将能够立足云端推动深度学习领域的整体进步。