AI芯片领域的角逐才刚刚开始

2024.04.12

    新型架构能够挖掘深度学习的巨大潜力。然而，到目前为止，只有一款AI芯片是完全符合描述和基准测试的，它就是谷歌的TPU。即便如此，这一领域仍然正在蓬勃发展，相关的技术也开始逐渐明朗，比如模拟计算、新兴内存和封装技术、以及一系列专门用于处理神经网络的技术等等。
    对此，比利时鲁汶大学Marian Verhelst教授表示：“这个领域涉及范围很广，包括每个层面的研究。”Verhelst教授专门研究探索二元精密格式的芯片。她说，模拟计算很有用，特别是3到8位格式的模拟计算。
    NVIDIA首席科学家、资深处理器研究员Bill Dally表示：“NVIDIA有多个和深度学习模拟计算相关的研究项目，但是到目前为止，还没有一个项目可以转化为产品。”他补充说，有一些项目是需要数学神经网络的，生成的结果并不适合用于进行模拟。
    “过去那些被否定了的CPU新想法都被重新拿出来进行探索，例如模拟计算、内存处理器、晶圆级集成，”资深计算机研究员David Patterson这样表示，他现在在谷歌工作。“我迫不及待地想看看这些激进的想法是否奏效。”
    “两三年前，每个优秀的计算机架构师都会说——＇我可以做到100倍速’。正因如此，我们看到大量解决方案已经出现，并且提供了各种功能上的改进，不断逼近当前技术的极限。” Chris Rowen表示，他曾经是MIPS和Tensilica公司的联合创始人，现在又创建了一家人工智能软件公司BabbleLabs。
    AI基准测试遭遇初创公司冷落
    处理器设计的复兴给人们带来的一大挫折就是漫长的等待。
    去年5月，百度和谷歌公布了MLPerf基准，以一种公平的方式来衡量“几十家”初创公司开发的芯片。该项目负责人Patterson表示：“结果有点令人失望，没有一家初创公司提交第一个迭代的结果。”
    “也许他们有战略方面的考虑。但又不禁让人怀疑，他们是不是在开发芯片的过程中遇到了问题，还是芯片性能没有达到他们的预期，又或者是他们的软件不够成熟，无法很好地运行这些基准测试？”
    这个训练基准测试采用了ResNet－50，第一个测试结果显示，谷歌TPUv3在从8个芯片扩展到256个芯片的过程中，性能扩展几乎可以达到100％，相比之下，NVIDIA Volta在从8个芯片扩展到640个芯片的过程中，性能扩展了大约27％。
    Patterson解释说，TPU之所以占据优势，是因为它可以作为多处理器在自己的网络上运行。相比之下，NVIDIA Volta则是运行在x86集群上的。
    Patterson希望未来MLPerf之于AI加速器就像Spec之于CPU。第二批训练结果预计将在今年晚些时候公布。针对数据中心和边缘推理工作的MLPerf基准测试也将在今年首次亮相。
    与此同时，也有研究人员警告称，AI芯片行业过于关注峰值性能。“我们认为峰值性能没有什么用，因为峰值性能没有考虑到效率上的差异，”帝国理工学院Erwei Wang博士这样表示，最近他和同事共同撰写了一份关于人工智能加速器的研究报告。他指出，“人们应该公布的是标准数据集和基准测试的持续性能结果，以便更好地对比不同的架构。”下图为MLPerf在12月发布的初步结果采样。
    分析师：格局尚不明朗
    有分析师抱怨说，包括Graphcore和Wave Computing等在内的知名初创公司到目前为止都没能提供性能数据。唯一的例外是Habana Labs。
    The Linley Group分析师Linley Gwennap表示，该初创公司“似乎有一些真实的数据，在白皮书中详细说明其性能是NVIDIA GPU的3到5倍，但他们最初关注的是推理任务，而非训练。”
    对此，Moor Insights＆Strategy分析师Karl Freund也指出，目前来自初创公司的性能数据确实“少得可怜”。
    其中，Habana只是在采样阶段，Wave宣称已有客户采用，Graphcore表示会在4月之前出货芯片产品，Groq可能会在4月北京举行的一个活动上第一次亮相，其他初创公司则可能会于9月在旧金山举行的一次活动上发布产品。
    有几家中国初创公司——例如Cambricon和Horizon Robotics，让我们看到了一些希望，这些公司先于美国的同类企业进入市场，专注于人工智能推理领域。
    Freund表示：“由于目前在推理领域还没有巨头出现，所以会掀起一股淘金热，但我不知道是否有初创公司能够在训练领域向NVIDIA GPU发起挑战，因为只是在一个产品周期内你无法扭转竞争形势，企业需要可持续的领先地位。”
    他说：“唯一一个真正在训练领域站稳脚跟的是英特尔，英特尔已经推出了Nervana芯片，他们正在等待合适的时机，因为如果只是有一堆MAC和降低了的精度，立刻会被NVIDIA秒杀。他们需要解决内存带宽和扩展问题。”
    在这场竞赛中，英特尔可以说是多管齐下。英特尔的一位AI软件经理表示，与他工作关系最紧密的，就是至强处理器和前苹果及AMD GPU大师Raja Koduri设计的新GPU。
    英特尔最新的Cascade Lake至强处理器中增添了很多新功能，用以加速人工智能。我们预计，英特尔将不再需要GPU或加速器，但也不会放弃与GPU和加速器在性能或效率方面的竞争。
    而对于NVIDIA来说，他们正在将最新的12纳米处理器封装到各种工作站、服务器和机架系统中。有人说，NVIDIA在AI训练方面遥遥领先，甚至可以把7纳米产品保留到2020年之后再推出。
    除了，NVIDIA之外，许多大厂商也都在基于专有的互连技术、封装技术、编程工具和其他技术构建竞争生态系统。其中，英特尔涉及的技术领域最广泛，包括专有的处理器互连、针对Optane DIMM的内存协议、网络框架、以及新兴的EMIB和Foveros芯片封装。
    AMD、Arm、IBM和Xilinx则围绕CCIX（用于极速器的一种缓存一致性互连技术）和GenZ（一种内存链接技术）进行联手。最近，英特尔还发布了一种针对加速器和内存的更开放的处理器互连技术——CXL，但到目前为止，CXL仍然缺少对CCIX和GenZ的第三方支持。下图为AI芯片初创公司列表。


    1  2  下一页>