英特尔很吓人AI技术：神经网络处理器及VPU性能飙升3-4倍

2024.04.06

    这是我第二次见到Naveen Rao。
    与初见一样，聊到AI，他的话匣子一下被打开，一直有层出不穷的想法与理论冒出，满腹经纶，侃侃而谈。
    英特尔全球副总裁兼人工智能产品事业部（AIPG）总经理 Naveen Rao
    与他这种温暖的教授般的气质形成“反萌差”的是他对极限运动的热爱。这位40刚出头的AI专家还是一名运动健将，以至于在滑雪、滑板、骑自行车、驾驶赛车、摔跤和打篮球的生涯中，弄伤了全部手指。或许就是这样一位冒险家，更适合带动人工智能，在他创立的深度学习初创公司Nervana被英特尔收购后，Nervana被迅速整合到英特尔AI核心战略之中，现在Rao已经成为英特尔人工智能事业群（AIPG）的掌舵人。
    Rao说来到英特尔，“这里是一个开放的文化”，他很喜欢团队合作，然而调用资源并不是一件容易的事，但英特尔在产品的市场化方面拥有丰富的经验，强大的向心力正将公司各部门之间扭成一股劲，朝着一个目标通力协作。
    在英特尔，实干永远比空谈更重要。在英特尔首届AI开发者大会上，由Rao率队带领，英特尔人工智能业务相关部门的“狠角色”集中露面，这应该是英特尔AI史上一次先例。要知道，除了英特尔内部会议，能够在公开场合看到一群“大牛”如此乖巧的集中出现，几乎是零概率事件。
    但英特尔并没有让人失望。
    这一次它拿出了一支配置超高的英特尔“AI银河战队”（姑且叫这名吧），如下图，从左到右依次是：
    Jennifer Huffstetler，英特尔数据中心事业部副总裁兼数据中心产品和存储营销总经理
    Reynette Au，英特尔可编程解决方案事业部副总裁
    Jack Weast，英特尔无人驾驶解决方案资深首席工程师兼首席架构师
    Gayle Sheppard，英特尔新技术事业部副总裁兼Saffron人工智能事业部总经理
    Remi El－Ouazzane，英特尔新技术事业部副总裁兼Moviduis总经理
    Jonathon Ballon，英特尔物联网事业部副总裁
    Naveen Rao，英特尔公司副总裁兼人工智能产品事业部总经理
    尽管这阵容堪比漫威“复仇者联盟”，但依旧有“大神”在画框外。
    英特尔人工智能事业部副总裁、 Nervana团队核心成员Carey Kloss
    Carey Kloss是英特尔人工智能事业群副总裁、 Nervana团队核心成员，虽然并没有在上图中出现，但他向科技行者表达出对团队的热爱，“英特尔有迄今为止我见过的最佳的后硅培养（post－silicon bring－up）和架构分析。”也正因如此，Nervana神经网络处理器（Nervana Neural Network Processor，NNP）才获得巨大提升。
    事实上，NNP也是英特尔酝酿已久的“杀手锏”。在本次AI开发者大会上，Rao就爽快公开了英特尔新一代AI芯——英特尔Nervana NNP－L1000，代号为“Spring Crest”的专用人工智能芯片，而这款芯片也即将成为英特尔第一款商用神经网络处理器产品，并计划在2019年发布。
    尽管Rao并没有再多透露新代AI芯片的细节，但同为Nervana创始团队的Carey Kloss却掌握着机密——我们当然不会放过他。就在AI开发者大会期间，科技行者与他进行了一次“接地气”对话，原来打着“如意算盘”的英特尔还可以这样玩。
    Nervana NNP：新AI芯性能飙升3－4倍，但威力还没完全释放
    在Rao长达1小时的主题演讲中，最重磅的发布非英特尔Nervana神经网络处理器莫属了，它对英特尔的意义非同小可。
    如果拿去年10月首次公布的“Lake Crest”（Nervana NNP系列初代芯片代号）做一个比喻，可以说“Lake Crest”就像一场“及时雨”，成功帮助英特尔在AI专用芯片竞争中站住脚。但英特尔却提出了一个更大的目标，即到2020年要将深度学习训练的性能提升100倍。而Crest家族很可能成为英特尔目标实现的最快途径。
    要知道一块芯片的打造并非易事，如果背后没有一支疯狂、专注的芯片开发团队，它也将是一块不足挂齿的芯片。所以懂门道的内行人更专注的问题是：Nervana神经网络处理器系列芯片背后的英特尔IC设计团队，究竟是如何打造出这颗能在现有性能上再飙升3－4倍的“Spring Crest”？
    虽然Carey Kloss口风很紧，但关于Nervana神经网络处理器，科技行者还是在与他的聊天中，拿到以下犀利信息：
    1、Lake Crest和Spring Crest的主要区别
    Lake Crest作为第一代处理器，在GEMM（矩阵运算）和卷积神经上都实现了非常好的计算利用率。这不仅仅是指96％吞吐量的利用率，而是在没有充分定制化的情况下，Nervana也在大多数情况下实现GEMM高于80％的计算利用率。当开发下一代芯片时，如果能够保持高计算利用率，新的产品在性能上有3到4倍的性能提升。
    2、Lake Crest计算利用率达到96％，为什么到Spring Crest不升反而降了？
    这是一个市场策略，把利用率适当下降。有些情况确实可以实现98％，在没有资源冲突时，每个硅芯片都完全运行的情况下，可以达到99％甚至100％计算利用率。但英特尔想展示的是大多数情况下能能实现的利用率，所以适当调整了。
    3、为什么Nervana芯片的发布节奏一再延期？
    分为两个阶段，Nervana在2014年成立之初就开始研发Lake Crest，当时整个团队大概45人，正在构建一个最大的Die（硅芯片），我们开发了Neon（深度学习软件），还构建了云栈，这些都是小团队所完成的。但这也是挑战所在，小团队成长会有阵痛，Nervana花了很长时间才把第一批产品拿出来，直到去年芯片才真正问世。关于Spring Crest为何选择2019年年底推出，因为需要集成更多的Die（硅芯片），获得更快的处理速度，但需要一定的时间去制造硅片，也需要硅片变成新的神经网络处理器，这是延迟的原因。目前来看，Spring Crest正处于合理的节奏中，已具备明年取得成功的所有要素。
    4、延迟给英特尔带来了哪些不利影响？
    Carey Kloss并不认为英特尔会在神经网络处理器上处于劣势，因为英特尔的反应速度相对较快，比如逐步转向bfloat是一个重要因素，它是业内广泛采用的针对神经网络的一种数值型数据格式，很受市场欢迎，未来英特尔将在人工智能产品线上扩大对bfloat16的支持，包括至强处理器和FPGA。
    5、拿nGraph与CUDA相比：没在怕的
    抛开硬件层面，英特尔还在软件部署上加足马力。目前，英特尔AIPG事业部正在开发名为nGraph的软件，该软件是一个框架中立的深度神经网络（DNN）模型编译器。英特尔正在把TensorFlow、MXNet、Paddle Paddle、CNTK和ONNX等深度学习框架集成在nGraph之上。
    同样是一个平台概念，很多人喜欢拿GPU代表企业英伟达与英特尔做比较，事实上，Carey Kloss就直言了nGraph与竞争对手CUDA平台的区别。
    “nGraph与CUDA还是不一样的。CUDA你可以理解为 nGraph的底面，我们称之为变压器。nGraph通过一个固定的API接收来自TensorFlow，Caffe或MXNet的输入，然后通过图形编译器进行性能优化，排除一些不需要的东西，然后将其发送给CPU的MKL－DNN。所以CPU仍然使用MKL－DNN，即使在nGraph中也是如此。“不难看出，英特尔也有意把芯片开发放在统一平台上，将nGraph打造成为开发基于所有英特尔芯片的AI应用程序的接口做统一。
    相比于新一代Nervana NNP－L1000还处于研发阶段，英特尔另一款专注于计算机视觉的芯片VPU实际已经商用。关于这款芯片，英特尔又寄托了怎样的市场期望，来看另一位同样在画框外的大神的解答。


    1  2  下一页>