黑马Groq单挑英伟达，AI芯片要变天？

2024.10.14 科技云报道

近一周来，大模型领域重磅产品接连推出：OpenAI发布“文字生视频”大模型Sora；Meta发布视频预测大模型 V-JEPA；谷歌发布大模型 Gemini 1.5 Pro，更毫无预兆地发布了开源模型Gemma......
    难怪网友们感叹：“一开年AI发展的节奏已经如此炸裂了么！”
    但更令人意想不到的是，AI芯片领域处于绝对霸主地位的英伟达，竟然也遇到了挑战，而且挑战者还是一家初创公司。
    在这家名叫Groq的初创芯片及模型公司官网上，它号称是世界最快大模型，比GPT-4快18倍，测试中最快达到破纪录的每秒吞吐500 tokens。
    这闪电般的速度，来源于Groq自研的LPU（语言处理单元），是一种名为张量流处理器（TSP）的新型处理单元，自然语言处理速度是英伟达GPU 10倍，做到了推理的最低延迟。
    “快”字当头，Groq可谓赚足眼球。Groq还喊话各大公司，扬言在三年内超越英伟达。
    事实上，在这一波AI热潮中，“天下苦英伟达久矣”。英伟达GPU芯片价格一再被炒高，而Groq的LPU架构能“弯道超车”，显然是众望所归。
    因此，不少舆论惊呼Groq要颠覆英伟达，也有业内人士认为Groq想要“平替”英伟达还有很长的路要走。
    但无论持哪种观点，Groq的出现不仅是对现有芯片架构和市场格局的挑战，也预示着AI芯片及其支撑的大模型发展方向正在发生变化——聚焦AI推理。

     Groq LPU：快字当头
    据介绍，Groq的芯片采用14nm制程，搭载了230MB大静态随机存储器（SRAM）以保证内存带宽，片上内存带宽达80TB/s。在算力方面，该芯片的整型（8位）运算速度为750TOPs，浮点（16位）运算速度为188TFLOPs。
    Anyscale的LLMPerf排行显示，在Groq LPU推理引擎上运行的Llama 2 70B，输出tokens吞吐量快了18倍，优于其他所有云推理供应商。
    据网友测试，面对300多个单词的“巨型”prompt（AI模型提示词），Groq在不到一秒钟的时间里，就为一篇期刊论文创建了初步大纲和写作计划。此外，Groq还完全实现了远程实时的AI对话。
    电子邮件初创企业Otherside AI的首席执行官兼联合创始人马特·舒默（Matt Shumer）在体验Groq后称赞其快如闪电，能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。
    更令人惊讶的是，其超过3/4的时间用于搜索信息，而生成答案的时间却短到只有几分之一秒。
    Groq之所以“快如闪电”，其创新的核心在于LPU。
    据官方信息显示，LPU推理引擎是一种新型的端到端处理单元系统，它为计算密集型应用提供最快的推理能力，这些应用具有序列组件，例如AI语言应用程序（LLM）。
    LPU旨在克服LLM的两个瓶颈：计算密度和内存带宽。
    就LLM而言，LPU比GPU和CPU具有更大的计算能力。这减少了每个单词的计算时间，从而可以更快地生成文本序列。
    同时，与利用高带宽内存（HBM）的GPU不同，Groq的LPU利用SRAM进行数据处理，比HBM快约20倍，从而显著降低能耗并提高效率。
    GroqChip的独特架构与其时间指令集相结合，可实现自然语言和其他顺序数据的理想顺序处理。
    消除外部内存瓶颈，不仅使LPU推理引擎能够在LLM上提供比GPU高几个数量级的性能。
    而且由于LPU只进行推理计算，需要的数据量远小于模型训练，从外部内存读取的数据更少，消耗的电量也低于GPU。
    此外，LPU芯片设计实现了多个TSP的无缝连接，避免了GPU集群中的瓶颈问题，显著地提高了可扩展性。
    因此，Groq公司宣称，其LPU所带来的AI推理计算是革命性的。
    在AI推理领域挑战GPU
    尽管Groq高调喊话，但想要“平替”英伟达GPU并不容易。从各方观点来看，Groq的芯片还无法与之分庭抗礼。
    原Facebook人工智能科学家、原阿里技术副总裁贾扬清算了一笔账，因为Groq小得可怜的内存容量，在运行Llama 2 70B模型时，需要305张Groq卡才足够，而用英伟达的H100则只需要8张卡。
    从目前的价格来看，这意味着在同等吞吐量下，Groq的硬件成本是H100的40倍，能耗成本是10倍。
    但跳出单纯的价格对比，Groq LPU的解决方案依然展现出了不小的应用潜力。
    根据机器学习算法步骤，AI芯片可以划分为训练AI芯片和推理AI芯片。
    训练芯片是用于构建神经网络模型，需要高算力和通用性，追求的是高计算性能（高吞吐率）、低功耗。
    推理芯片是对训练好的神经网络模型进行运算，利用输入的新数据来一次性获得正确结论。
    因此完成推理过程的时间要尽可能短、低功耗，更关注用户体验方面的优化。
    虽然现阶段GPU利用并行计算的优势在AI领域大获全胜，但由于英伟达GPU的独有架构，英伟达H100等芯片在推理领域算力要求远不及训练端，这也就给Groq等竞争对手留下了机会。
    因此，专注于AI推理的Groq LPU，得以在推理这个特定领域挑战英伟达GPU的地位。从测试结果上看，Groq能够达到令人满意的“秒回”效果。
    这也在一定程度上显示了通用芯片与专用芯片的路径分歧。
    随着AI和深度学习的不断发展，对专用芯片的需求也在增长。
    各种专用加速器如FPGA、ASIC以及其他初创公司的AI芯片已经不断涌现，它们在各自擅长的领域内展现出了挑战GPU的可能性。
    相比于英伟达通用型AI芯片，自研AI芯片也被称作ASIC，往往更适合科技公司本身的AI工作负载需求且成本较低。
    比如，云巨头AWS就推出了为生成式AI和机器学习训练而设计全新自研AI芯片AWS Trainium2，性能比上一代芯片提高到4倍，可提供65ExaFlops超算性能。
    微软也推出第一款定制的自研CPU系列Azure Cobalt和AI加速芯片Azure Maia，后者是微软首款AI芯片，主要针对大语言模型训练，预计将于明年初开始在微软Azure数据中心推出。
    谷歌云也推出了新版本的TPU芯片TPU v5p，旨在大幅缩减训练大语言模型时间投入。
    无论是大厂自研的AI芯片，还是像Groq LPU这样的专用芯片，都是为了优化特定AI计算任务的性能和成本效率，同时减少对英伟达等外部供应商的依赖。
    作为GPU的一个重要补充，专用芯片让面对紧缺昂贵的GPU芯片的企业有了一个新的选择。
    AI芯片聚焦推理
    随着AI大模型的快速发展，尤其是Sora以及即将推出的GPT-5，都需要更强大高效的算力。但GPU在推理方面的不够高效，已经影响到了大模型业务的发展。
    从产业发展趋势来看，AI算力负载大概率将逐步从训练全面向推理端迁移。
    华尔街大行摩根士丹利在2024年十大投资策略主题中指出，随着消费类边缘设备在数据处理、存储端和电池续航方面的大幅改进，2024年将有更多催化剂促使边缘AI这一细分领域迎头赶上，AI行业的发展重点也将从“训练”全面转向“推理”。
    高通CEO Amon也指出，芯片制造商们的主要战场不久后将由“训练”转向“推理”。
    Amon在采访时表示：“随着AI大模型变得更精简、能够在设备上运行并专注于推理任务，芯片制造商的主要市场将转向‘推理’，即模型应用。预计数据中心也将对专门用于已训练模型推理任务的处理器产生兴趣，一切都将助力推理市场规模超越训练市场。”
    在最新的财报电话会上，英伟达CFO Colette Kress表示，大模型的推理场景已经占据英伟达数据中心40%的营收比例。这也是判断大模型行业落地前景的重要信号。
    事实上，巨头们的一举一动也在印证这一趋势的到来。
    据路透社报道，Meta将推新款自研AI推理芯片Artemis。预计Meta可于年内完成该芯片在自有数据中心的部署，与英伟达GPU协同提供算力。
    而英伟达也通过强化推理能力，巩固自身通用GPU市占率。
    在下一代芯片H200中，英伟达在H100的基础上将存储器HBM进行了一次升级，为的也是提升芯片在推理环节中的效率。
    不仅如此，随着各大科技巨头、芯片设计独角兽企业都在研发更具效率、部分替代GPU的芯片，英伟达也意识到这一点，建立起了定制芯片的业务部门。
    总的来说，以现在AI芯片供不应求的现状，GPU的增长暂时还不会放缓。但随着AI发展趋势的快速变化，英伟达不可能是永远的王者，而Groq也绝对不是唯一的挑战者。
     相关阅读
    “存算一体”是大模型AI芯片的破局关键？
    不堪忍受英伟达霸权，纷纷自研AI芯片
    争夺算力话语权，云计算厂商迎来自研芯片“觉醒时刻”
    GPU受限，国内AI大模型能否交出自己的答卷？
    【科技云报道原创】
    转载请注明“科技云报道”并附本文链接