AI终端场景：按需求逐步落地，未来集成是趋势

2024.04.09

    人工智能硬件应用场景归纳为云端场景和终端场景两大类。云端主要指服务器端，包括各种共有云、私有云、数据中心等业务范畴；终端主要指包括安防、车载、手机、音箱、机器人等各种应用在内的移动终端。由于算法效率和底层硬件选择密切相关，“云端”（服务器端）和“终端”（产品端）场景对硬件的需求也不同。
    核心芯片决定计算平台的基础架构和发展生态，由于AI所需的深度学习需要很高的内在并行度、大量浮点计算能力以及矩阵运算，基于CPU的传统计算架构无法充分满足人工智能高性能并行计算（HPC）的需求，因此需要发展适合人工智能架构的专属芯片。
    除CPU外，人工智能目前主流使用三种专用核心芯片，分别是GPU，FPGA，ASIC。本报告分上下2部分仔细分析云端和终端两种应用场景下，这三种专属AI芯片的应用现状、发展前景及可能变革。
    1“下沉”终端，芯片负责推断
    云端受限于延时和安全性，催生AI向终端下沉。云端AI应用主要依靠网络将云端计算结果与终端执行结果数据和增量环境参数进行交换。这个过程存在两个问题：第一，使用网络传输数据到云端会产生延迟，很可能数据计算的结果会需要等待数秒甚至数十秒才能传回终端；第二，使用网络传送数据，传输过程中数据有被劫持的风险。因此，在某些对延迟和安全性要求较高的场景就有了将AI下沉到终端的需求。
    下沉到终端的AI主要是“推断”部分。由于模型更新快，计算更为复杂，且基于大数据，“训练”一般在云端进行。由于数据和算力限制，未来在终端场景下，处理器主要负责执行人工智能的“推断”过程。“推断”下沉终端优势在于实时性，可以在终端进行的操作不需要回传云端处理，更有效满足AI运算的实时性需求场景。终端可定期从云端下载训练好的参数用于推断参数更新，同时可选择上传云端需要的“训练”信息。通俗来说，未来终端人工智能“大脑”的进化仍在云端进行。
    2需求决定硬件，场景逐次落地
    采用硬件实现终端人工智能是必然。理论上，智能终端利用原有CPU大脑，运行纯软件的AI算法，也可实现相关应用。但实时性要求高的场景（如安防、辅助驾驶等），对“最差情况下的最大延时”容忍度很低，如果只用CPU运算不能满足实时性要求，必须有专属硬件加速；而在手机、音箱、AR／VR眼镜、机器人等使用电池、对功耗敏感的终端场景，采用纯软件运算功耗很大，不能满足用户对功耗的苛刻要求，同样需要采用专属芯片加速。
    终端AI推断需要硬件支持的需求场景有三种：（1）低延时；（2）低功耗；（3）高算力。按照需求落地先后顺序，我们判断AI芯片落地的终端子行业分别是：（1）智能安防；（2）辅助驾驶；（3）手机／音箱／无人机／机器人等其他消费终端。三个领域对终端AI硬件的要求各有侧重：（1）智能安防、智能驾驶由于视频信号的数据量较大，对数据流计算速度要求较高；（2）智能驾驶除计算能力外对硬件的稳定性和突发状况处理速度要求较高；（3）智能手机、音箱、AR／VR终端受限于电池容量，对低功耗的要求更高些。下面我们逐个分析几种AI＋场景。