Habana Labs:AI训练处理器如何炼成?


    以色列AI处理器开发商Habana Labs上周宣布,推出人工智能处理器Habana Gaudi,专供机器学习训练(inference)任务。公司首席商务官艾坦·麦地那 (Eitan Medina)称 Gaudi “业界性能最高”,基于Gaudi的训练系统,实现了比拥有相同数量的GPU系统高近四倍的处理能力。
    Habana Labs这家公司创立于2016年,总部位于以色列特拉维夫,官方称,公司专精于使用人工智能提升芯片处理效能,同时降低芯片成本与电力消耗,旗下产品主要针对AI的推理预测和训练。2018年11月,在英特尔旗下创投基金英特尔资本(Intel Capital)的领投下,该公司完成7500万美元的B轮募资,迄今募资约1.2亿美元。
    一般而言,AI计算大致分为两个层面,首先是对模型进行训练(Training);之后训练出的模型响应实际请求,做出推理(Inference)。
    去年,Habana Labs推出旗下第一款产品——Goya推理处理器,主要用于AI推理和预测。而今年第二款产品Gaudi,主要用于AI训练。也就是说,至此Habana在AI芯片的训练、推理两端初步形成了完整产品线。
    在AI处理器的训练端,此前英伟达旗下的GPU(图形处理器)可谓一家独大(多数推理任务则仍由英特尔CPU承担),而Gaudi的出现,就有言论称“Gaudi对标英伟达GPU产品”。实际上这话并非空穴来风,现场,Eitan Medina直言“要做人工智能芯片产业的领导者”,底气就是Goya和Gaudi。
    “人工智能处理器的性能包括两点,计算和延迟。” Eitan Medina认为,原用于通用计算的GPU和CPU,适用于人工智能计算处理时,在架构上存在“先天不足”,因此从性能方面看,针对AI需求设计的专用芯片架构存在优势。
    Habana自然考虑到了这点。据Eitan Medina所说,公司工程师从最早、最基础层面就开始对芯片的架构进行了设计,专门针对AI需求。其团队成员也主要来自处理器、DSP、系统设计以及网络设计等领域全球知名企业的精英,能够支持Habana从软件到硬件的研发需求。
    比如Goya,Habana专门设计了一款独特的架构,叫做“Tensor processor core(相当于张量处理核心)”,在里面还形成了一个“GEMM(卷积操作中的矩阵乘法)”,通过这种方式,既可以提供更好的性价比,又可以让Goya支持不同神经网络的结构,处理不同的数据类型。所以在一些高性能领域,比如自动驾驶,Goya具有优势。
    再看Gaudi,这款AI处理器的外形设计遵循了目前一个比较流行的新架构,叫做OCP(Open Compute Platform)——是Facebook发布的开源计算平台。
    “为什么客户要选择Gaudi?”Eitan Medina说,第一,Gaudi给客户提供了更强的处理能力,以及更好的性能功耗;第二,通过内置RDMA以太网处理单元,给客户提供了一种以前无法实现的可拓展能力。这两点有何好处呢?按照Habana Labs首席执行官David Dahan的话来说就是,人工智能模型训练所需的计算能力每年呈指数增长,因此,提高生产率和可扩展性,解决数据中心和云计算对计算能力的迫切需求成为至关重要的任务。
    在AI训练中,可扩展能力主要与网络相关。在拓展性方面,Habana Labs称,由于Gaudi处理器集成RoCE v2(RDMA over Converged Ethernet)网络规范,并可搭载最多20个以太网接口,架构上可几乎实现无限扩展,即使是在较小Batch Size的情况下,也能保持高计算力,因此基于Gaudi处理器的训练性能,可实现从单一设备扩展至由数百个处理器搭建的大型系统的线性扩展。“与Habana的标准设计相比,基于GPU的系统依赖于专有的系统接口,对系统设计人员来说,这从本质上限制了可扩展性和选择性。” Eitan Medina说。
    Gaudi也将支持主流深度学习框架,包括谷歌开发的TensorFlow、Facebook开发的PyTorch和MXNet等;软件端,通过Habana Labs自有的SynapseAI软件栈对训练模型输入进行分析和优化,其工具链保持开放,供客户添加专有内核;同时,Habana Labs也添加了Linux驱动支持。
    Gaudi配备32GB HBM-2内存,目前提供两种规格:
    HL-200 - PCIe卡,设有8个100Gb以太网端口;
    HL-205 - 基于OCP-OAM标准的子卡,设有10个100Gb以太网端口或20个50Gb以太网端口。
    另外,Habana推出了一款名为HLS-1的8-Gaudi系统,配备了8个HL-205子卡、PCIe外部主机连接器和24个用于连接现有以太网交换机的100Gbps以太网端口,让客户能够通过在19英寸标准机柜中部署多个HLS-1系统实现性能扩展。
    Habana Labs将于2019年下半年面向特定客户提供Gaudi样品。