AI将数据中心架构再次拖向分裂?


    自从Alpha GO战胜人类围棋选手以来,AI就成为了整个商业社会中热度最高的一个名词。在AI的背后是对传统商业模式的巨大颠覆和对社会生产力的空前解放。虽然AI很可能在未来淘汰掉一部分重复性劳动很高的工作岗位,但因此所释放出的劳动力将在未来把人类的创造力推向新的高峰。
    但除了已经沦为陈词滥调的AI光明未来,在实际的应用中,AI技术却仍旧处于萌芽状态。在目前的阶段,人工智能——Artificial Intelligence仍旧处于相当初级的阶段,还只能根据海量数据所构建出的模型来完成应用中的推理与判断,离真正的自主型人工智能或根据有限信息来自主拓展模型并作出判断的强人工智能还有很大的差距。
    不过由于目前AI开发与应用的主要模式已经确认,对应的研究手段也就变得明确起来。在现有的技术方向下,企业需要利用神经网络技术并使用机器学习、深度学习算法来构建模型,在根据模型来开发对应的软硬件解决方案。而无论是训练AI模型还是利用AI模型来进行推理判断,强大的运算能力都是必不可少的。
    AI两端的不同景象
    在模型训练方面,由于输入的数据类型和使用的DL/ML框架不同,硬件不仅需要有强大的并行计算和浮点能力,更要具备强大的灵活性。但这两种需求都不是传统x86服务器所擅长的,因此就需要与x86异构的协处理器来完成对应的模型训练任务。在这一领域,最大的赢家无疑就是NVIDIA。面对这一市场的巨大需求和丰厚利润,NVIDIA不仅推出了针对不同性能和应用环境的多款GPU产品,更推出了对应的一体机甚至是为大规模GPU互联提供更高带宽的NVLink总线。此外,针对云数据中心的虚拟化环境和相关训练程序的开发,NVIDIA也有专门的GRID虚拟化技术及提高并行运算效率的CUDA语言。
    以庞大的产品研发投入,NVIDIA几乎占领了AI中的模型训练市场。不过在利用成品模型进行实际问题的推理判断领域,NVIDIA却还没有获得相应的统治地位。
    利用AI模型(程序)进行实际问题的推理和判断仍旧需要对应的硬件系统拥有强大的运算能力。但与模型训练的复杂场景不同,由于需要运行的程序和处理的数据类型的相对固定,硬件系统并不需要很高的灵活性。相反,在实际的AI应用场景中,用户往往对硬件的采购成本、能效和部署效率有着更高的要求。
    于是,专门对应某种算法的AI芯片被越来越多的制造了出来。最近在资本圈和市场上引起广泛关注的华为海思、寒武纪、地平线、比特大陆等公司都是这一领域的新贵。在产品形态上,他们大多采用ASIC方式将AI应用固化在芯片中,从而获得更低的成本和更高的性能及能效。当然,传统科技企业也没有在这一领域缺席,包括Google的TPU、Intel的Arria 10系列(FPGA芯片)和Xilinx的Versal芯片(FPGA)等也纷纷进入AI推理判断领域。
    与AI模型训练领域中NVIDIA的一家独大不同,推理判断领域却呈现出了百家争鸣、群雄逐鹿的景象。
    云数据中心的AI隐忧
    随着云理念和云优势被越来越多的企业认可,云计算市场也经历着一轮又一轮的高速增长。而将AI能力通过云计算的形式交付给企业和用户也成为了AI技术迅速发展并取得广泛应用的前提条件。于是,对于云数据中心来说各类计算卡和AI芯片就成为了扩容建设的重中之重。
    但随着云计算市场和应用集中趋势的愈发明显,很快,大型云数据中心就会发现,越来越多的GPU、ASIC、FPGA会开始堆满数据中心,他们分别运行着不同的程序、发挥着不同的作用、并且有着不同的管理方式。而这对于数据中心来说则是一种巨大的挑战。
    二十年前,当时的CPU性能远没有现在的强大,而面对庞大的数据存储和管理压力,大多数企业都开始研发运行效率更高的ASIC芯片,并使之成为存储系统的核心功能实现单元。期初,这一思路取得了很好的效果,满足的用户的需求。但随着时间得推移,越来越多不同厂牌、不同管理框架、不同功能的ASIC也让存储网络的管理和运营成本直线飙升;最终受苦的仍旧是企业。直到现在,软件定义存储技术才开始慢慢扭转这一局面,将企业从存储系统结构的深渊中慢慢拉出来。
    而现在,数据中心虽然已经实现了大面积的运化,但CPU+GPU+FPGA+ASIC的复杂计算架构却仍旧有可能将企业拖入AI基础设施的深渊,让数据中心重新面临二十年前的窘境。显然,这一切在目前仍未引起足够的重视。
    诚然,AI的崛起能够让企业在数字化时代的竞争中获得巨大的优势,并有望彻底改变人们生活和企业运行的效率和方式,但这种粗放型的发展思路却仍旧值得数据中心管理者们的重视。
    指望在复杂多变的AI市场建立统一的管理和运行框架在目前这个时间节点是不现实的;寄希望于初出茅庐的AI芯片独角兽们从整个数据中心未来管理和运营的角度来设计产品也不太可能。但从市场的规律来看,在没有新的颠覆性技术出现之前,谁能够解决好这一问题谁才有可能成为AI硬件市场未来真正的赢家。
    基于这一点,最有希望成为赢家的仍旧是Intel和Google这样庞大企业。他们既有设计数据中心架构的能力与经验,也有引领行业发展的资本和实力。而隶属于华为的海思则也有可能凭借华为丰富的设备制造和系统构建背景获得未来市场的一杯羹。但对于地平线、比特大陆、寒武纪这样最近几年才崭露头角的新型企业来说,数据中心仍旧是一个庞大且无法掌控的存在,其未来最好的归宿或许仍旧是被收购。
    当然,由于具备更相对更高的灵活性,FPGA和GPU方案仍旧可以很方便的与各种数据中心管理架构兼容,这对于近来股价持续下跌的NVIDIA来说或许是一个好消息。