英特尔首个神经网络处理器揭开面纱，幕后推手是这位42岁的冒险家

2024.03.24

    要了解计算机神经系统科学家Naveen Rao，只要看看他的手就行了。
    这位42岁的Dr．在滑雪、滑板、骑自行车、轮滑溜冰、驾驶赛车、摔跤和打篮球的生涯中，弄伤了全部的十个手指。
    他是一个冒险者，不断挑战身体和精神上的极限。在科学研究方面，他试图通过创造受到人脑结构和行为启发的芯片和软件，加速计算机行业进入人工智能的新时代。
    让Rao有别于其他正在尝试同样事情的人的是这样一个事实，英特尔去年以4亿美元的价格收购了他在圣地亚哥创办的公司：Nervana。
    这是一个认证标志。英特尔是电脑芯片行业的巨头，每年的销售额约600亿美元。但同时，它也是一个年迈的巨人，英特尔将在明年迎来50岁生日。这家公司曾错失向移动计算转变的最佳时机，而如今是时候重振旗鼓了。
    现在，英特尔正在努力捕捉业界下一波新兴浪潮：人工智能。更确切地说，是人工智能中被称为深度学习的那一部分。
    为AI“量身定制”专用芯片
    深度学习是一个新的、更具市场推广意义的术语，而这个概念已经存在了几十年来，之前被称为神经网络。神经网络不像传统计算机那样以串行方式运行计算，而是模仿人脑中神经簇的行为——发射信号并扼制它们，将数据排列成与人类记忆大致相似的模式。
    为什么深度学习会突然兴起？大概是依赖智能手机、无人机、监控摄像头等各种设备上安装的传感器，可以从世界各地创造大量的数据，然后将这些数据引导到更强大的计算机硬件上。这种组合使得神经网络的方法被广泛应用。
    因此，IDC半导体分析师Mario Morales认为，计算机行业正在改变，“比英特尔或其他任何人期待的都要更快”。专家称，人工智能现在是一块重要的增长业务，将为提供最好的硬件和软件的公司赚取数十亿美元。
    英特尔首个神经网络处理器揭开面纱，幕后推手是这位42岁的冒险家Naveen Rao 他是一位计算机架构师，也是一位神经科学家
    这就是Rao发挥作用的地方。他的工作是帮助英特尔中央处理器“进化”，也就是CPU——这一统治半导体行业数十年的产品。CPU是自20世纪70年代个人电脑革命开始以来，每台台式机和笔记本电脑的核心。此前两家公司统治了这个领域：一是微软与其操作系统软件，另一个是英特尔与其“Intel Inside”中央处理器。
    深度学习软件在CPU上运行，但效率不高。CPU本质上是通用设备，而并非专门针对深度学习的专业芯片，这就必然带来一些天生的不足。打一个比方，用众核芯片和GPU跑深度学习，就类似于用轿车去拉货，受轿车自身特点的限制，货物运输能力与真正大马力、高负载的货车有一定差距。
    反之，处理杂乱无章的海量数据、操控复杂的机器需要“量身定制”的计算机硬件，即专用芯片。这正是Rao和Nervana正在尝试的东西。如果他们成功了，英特尔也将会收获果实。
    沉迷“神经网络”的 Naveen Rao
    穿着T恤和蓝色牛仔裤的Rao有着运动员般的优美体形。他是印度移民的孩子，在肯塔基州东部一个名叫Whitesburg的小镇里长大。在20世纪70年代末期，他的医生父亲驱车开上40分钟的路程，将Rao和他的兄弟带到一个无线电小木屋，在一台落地式电脑上用Basic进行编程。“我们家里那个时候还没有电脑。”Rao说。
    Rao在农村度过了他的童年，他喜欢户外玩耍和《龙与地下城》以及Asimov、Heinlein和Tolkien的小说。在此之后，Rao进入了杜克大学（Duke University）。在那里，他被神经网络所吸引，因为他了解到人眼是如何在视觉物体上发现边缘的。当时的边缘检测技术是计算机视觉领域的一个前沿问题，有很多解决方案，包括神经网络。
    他最初在硅谷Sun Microsystems从事计算机芯片的研发工作，却仍然被神经学所吸引。于是，他决定辞去电脑工程师这项工作，然后重返校园。他在神经科学先驱John Donoghue的领导下获得了Brown University （布朗大学）的博士学位。
    毕业后，他前往位于圣迭戈西部的芯片制造商高通（Qualcomm），带领团队进行神经网络研究，旨在打造一个生物学启发下的人工神经网络。（这个项目后来变成了 Zeroth AI，一个帮助公司用高通芯片打造深度学习系统的软件平台。）
    Rao说，高通正在做有趣的工作。不过，当公司拒绝将他的研究转化为产品时，他决定成立自己的公司。在2014年，他创立了Nervana。不久之后，大公司就开始对它感兴趣了。
    Rao表示，当英特尔发现另一家大型科技公司正在四处嗅探时，就迅速出手了。对于Rao来说这很好。最重要的是，他找到了一家在芯片制造方面表现优异的公司。“The best at that is Intel”，他说。
    分析师们赞同这一观点。“他们拥有世界上最好的制造工厂。” Linley集团创始人及长期担任半导体行业分析师的Linley Gwennap表示，“和英特尔一起，你可以使用英特尔的名义进入市场，并利用英特尔的资源。”
    绝地反击：英特尔Nervana神经网络处理器
    英特尔和Nervana正在提供一系列软件工具，开发人员可以用来编写深度学习程序。同样重要的是，Nervana正在制作一款名为“Lake Crest”的神经网络计算机芯片——将由英特尔在年底前发布。
    英特尔首个神经网络处理器揭开面纱，幕后推手是这位42岁的冒险家英特尔 Nervana 神经网络处理器（NNP）系列芯片
    关于这款芯片有了最新进展。
    在10月17日召开的WSJ D．Live大会上，英特尔正式发布了专为机器学习而设计的英特尔 Nervana 神经网络处理器（NNP）系列芯片，它是业内第一个面向神经网络处理的芯片。
    英特尔CEO科再奇随后在官方博客发布公告称：
    当我们将新一代AI硬件推向市场时，我们很高兴Facebook能够提供密切合作并共享其技术见解。
    这款英特尔Nervana神经网络处理器将为各行各业带来人工智能计算革命。利用英特尔Nervana技术，企业将能够开发全新的人工智能应用，以处理海量数据并让客户获得更好的洞察，实现业务变革。
    我们有更多英特尔Nervana产品正在推进中，这些产品将提供更高的性能，并为AI模型提供更高可扩展性能力，这让我们即将超越去年设定的目标——即到2020年实现100倍的人工智能性能提升。
    现任英特尔副总裁、人工智能产品部门总经理Naveen Rao在一篇博客文章（文末附全文）中详细介绍了这款新的芯片，他指出，经过三年时间的开发，这个全新的Nervana神经网络处理器（Nervana Neural Network Processor）家族代号为“Lake Crest”，将大大提升深度学习的速度和计算效率。
    很少有人否认人工智能和机器学习的重要性，这已经成为当今发展最快的技术趋势之一。英伟达因为它的GPU芯片成为人工智能和机器学习的工作标准，从而在最近几年迅速声名鹊起。
    英特尔也决定投身于这一趋势前沿，将其作为巩固在数据中心领域优势的战略之一。这也解释了为什么英特尔在过去18个月一直强调自己FPGA加速器的能力，这种加速器用于为英特尔专用计算芯片加速深度学习工作负载。
    但是很多FPGA就会被Nervana神经网络处理器挤到一边，后者提供了许多相同的速度和性能优势。这是因为这些芯片采用了一种新的内存架构，Rao称这个架构设计旨在最大限度提高处理速度。与以往的芯片不同，Nervana系列不带有一个管理缓存层，而是采用软件来管理片上内存，以确定分配给不同的操作。
    Rao表示，这个功能让Nervana芯片能够“实现新一代面向深度学习的计算密度和性能”。他解释说，这个芯片具有一个简单的技巧就是所谓的“大规模双向数据传输”，这使得多个处理器可以作为一个大型虚拟芯片，可以容纳更大的AI模型，比以前更快地提供更好的洞察。
    这个“家伙”可以帮住英特尔捕捉AI大潮吗？
    英特尔正在掀起收购狂潮。在2016年，它收购了Movidius，一家硅谷公司，该公司专门为包括无人机在内的消费设备制造智能视觉芯片。今年早些时候，它又豪掷153亿美元收购了Mobileye，这是一家为无人驾驶汽车生产摄像头、芯片和软件系统的以色列厂商。
    它还与一家专门进行针对特定应用芯片定制的公司合作，并购买了另一家生产可以根据当前工作对其“固件”进行重新编程的芯片的公司。
    英特尔需要将所有这些融合在一起。当英特尔收购Nervana时，它认为这家小公司是其进军人工智能的“基础”。它让Rao负责英特尔所有的人工智能工作，直接向英特尔的首席执行官科再奇汇报。
    但是，在文化和技术执行方面，合并将是非常复杂微妙的一件事。分析师Gwennap表示，英特尔在初创企业收购方面表现不佳（a poor record）。他指出，在苹果推出iPhone之前，英特尔曾经有一个无线设备芯片部门，该公司在2006年将其卖给了Marvell Technology Group。
    为了尝试纠正错误，英特尔在2010年收购了英飞凌科技公司的无线部门，但文化冲突和技术上的分歧让英特尔脱离了手机游戏。诸如ARM Holdings（现在是SoftBank的一部分）之类比较灵活的公司轻松获得了移动芯片业务。
    DFJ Venture Capital（Nervana的早期投资者）的Steve Jurvetson认为，如果英特尔将让Rao放手去做，他有可能帮助英特尔推动文化变革。Jurvetson表示：
    “Rao是一位多才多艺的人，他整合来自多个学科的思想的能力非常出色。”
    “他有一种温暖的教授般的气度。”
    “他喜欢教别人，并讨论他们想法的可行性。但如果他认为某件事不是个好主意，他可不会裹足不前。”
    Rao坦言，他遇到了一些来自英特尔“老警卫”的阻力，但是他相信这家公司已经抛弃了“英特尔永远知道什么是最好的”这种观念。他表示，收购Nervana “并不是五年前的英特尔会做的事情。”
    “ 这是一个开放的文化。我可以说，‘嗨，伙计们，你们没明白。’”Rao说，有时候，他会发现自己在会议中拍桌子。但他表示自己有信心，科再奇会支持他。
    英特尔首个神经网络处理器揭开面纱，幕后推手是这位42岁的冒险家Naveen Rao 现任英特尔副总裁兼人工智能产品部总经理
    附：Naveen Rao撰文
    解读英特尔神经网络处理器四大关键技术特征
    正如英特尔首席执行官科再奇今天早些时候在华尔街日报的D．Live活动中讨论的那样，英特尔将很快会出货世界上第一批从头至尾专为人工智能打造的系列处理器——英特尔Nervana神经网络处理器系列（以前称为“Lake Crest”）。
    这个处理器系列的研发已经有3年多的时间，作为开发团队的代表，我想分享一下这一世界第一款神经网络处理器背后的动机和设计的初衷。
    深度学习的计算需求要求对围绕支持AI计算的硬件有一些新的思维。为此，我们设计了一个名为“英特尔Nervana神经网络处理器（英特尔Nervana NNP）”的深度学习新芯片。
    英特尔Nervana NNP是专为深度学习设计的架构。这种新架构的目标是提供深度学习所需的灵活性，以支持所有深度学习元语（primitives），同时使核心硬件组件尽可能高效。
    我们设计了英特尔Nervana NNP，使我们免受现有硬件的限制，因为这些硬件并不是明确设计为AI的。
    1、新的内存架构旨在最大限度地提高硅计算的利用率
    矩阵乘法和卷积是深度学习核心的一些重要原语。这些计算与通用的工作负载不同，因为操作和数据移动在很大程度上是先天知道的。因此，英特尔Nervana NNP没有标准的缓存层次结构，片上存储器是由软件直接管理的。更好的内存管理使芯片能够在每个裸片上实现大量计算的高水平利用，这意味着深度学习模型训练可以更快地完成。
    2、实现AI模型可扩展性的新水平
    采用高速片上和片外互连设计，Intel Nervana NNP可实现大量双向数据传输。一个具体的设计目标是实现真正的模型并行性，其中神经网络参数分布在多个芯片上。这使得多个芯片充当一个可以容纳更大型号的大型虚拟芯片，从而允许客户从其数据中获取更多洞察力。
    3、高度数值并行性：Flexpoint
    单个芯片上的神经网络计算主要受电源和存储器带宽的限制。为了实现神经网络工作负载的更高的吞吐量，除了上述内存创新之外，我们还发明了一种名为Flexpoint的新数字格式。 Flexpoint允许将标量计算实现为定点乘法和加法，同时允许使用共享指数的较大动态范围。由于每个电路较小，这导致了芯片上的并行性的大幅度增加，同时降低了每次计算的功率。
    4、性能
    当下的AI革命实际上是计算上的演进。自集成电路的发明以来，英特尔一直是推进计算极限的核心。我们拥有行业和研究方面的早期合作伙伴，他们正在与我们一起走在这个旅程中，共同促成第一个商业神经网络处理器，并对各行各业都产生积极的影响。我们有一个产品路线图，能让我们超过了我们去年设定的目标，在2020年，将深度学习训练的性能提升100倍。