AI服务器的定义、优势及现状

2024.04.27 眯眼科技

    在即将到来或者说已经到来的人工智能时代，我们更多的是听到AI服务器这一名词。那么，究竟什么是AI服务器，AI服务器又为何适用人工智能时代？
    AI服务器的定义
    从硬件架构来看，AI服务器主要指的是采用异构形式的服务器，表现形态多为机架式。在异构方式上，可以为CPU＋GPU、CPU＋FPGA、CPU＋TPU、CPU＋ASIC或CPU＋多种加速卡。
    而在其他组成部件上，如内存模块、存储模块、网络模块与传统服务器差别不大，主要的提升便是支持更大容量的内存满足当下实时负载增加的需求，提供更多外置硬盘插槽，并广泛支持NVME／PCIE等SSD，满足数据洪流需求，网络模块主要表现为带宽增加。
    尽管AI服务器可以采用多种异构形式，但目前广泛使用的是CPU＋GPU。也因此，业界在谈到AI服务器时，往往将其默认为GPU服务器。因此，在第二部分中，笔者谈到的AI服务器优势也主要为GPU服务器。
    AI服务器的优势
    传统服务器主要以CPU为算力提供者。而CPU为通用型处理器，采用串行架构，擅长逻辑计算，负责不同类型种类的数据处理及访问，同时逻辑判断又需要引入大量分支跳转中断处理，这使得CPU的内部结构复杂。也因此，CPU算力的提升主要靠堆核来实现。
    随着云计算、大数据、AI、物联网等技术应用，数据在近几年呈指数型增长，IDC统计显示全球90％数据均在近几年产生，这便对CPU的处理能力提出考验，而目前CPU的物理工艺、核心数已接近极限，数据量却不会停止，服务器的处理能力必须提升。因此，在AI时代下，仅由CPU做算力提供者的传统服务器并不能满足需求。
    不同于CPU，GPU采用并行计算模式，单卡核心数达到上千个，擅长处理密集型运算应用，如图形渲染、计算视觉和机器学习。经过几年验证，搭载GPU的服务器也被证实的确适用这个时代。
    AI服务器市场现状
    IDC全球半年度人工智能系统支出指南预测显示，2019年全球人工智能系统支出将达到358亿美元，相比2018年增加44．0％。同时，人工智能系统支出到2022年将翻一番达到792亿美元，2018年到2020年预测期内复合年增长率（CAGR）为38．0％。
    这一数值也意味着，AI服务器的市场有多广。也因此，全球几大服务器厂商均紧锣密鼓部署着AI服务器。
    目前，在中国市场上，浪潮的市场占有率最大，且处于绝对领先地位，份额达到51．4％，曙光和新华三紧随其后。从行业分布来看，互联网当之无愧是AI服务器的主要用户。而在GPU上，NVIDIA具有明显优势，其Tesla系列产品在AI基础设施市场占据主导地位，尤其在线下训练场景中处于垄断地位。
    而在AI服务器上，目前性能最强的为浪潮AI超级服务器AGX－5，AGX－5是专为深度学习和高性能计算的性能扩展设计，单机在8U空间里可以配置16颗NVIDIA Tesla V100 Tensor Core 32GB GPUs，拥有10240个张量计算核心，计算性能高达每秒2千万亿次。