国产GPU“挑战”美国禁令，创全球通用GPU最高算力

2024.09.06

    上个月，美国以维护国家安全为由，禁止英伟达、AMD向中国销售AI芯片，引发市场热议。但同时有专家指出，此举给予中国厂商与相关产业崛起的机会，如同2015年美国政府发出禁令要求英特尔停止向中国超级计算机制造商出售高端芯片，因担心中国用于核武研究，但仅仅一年后，中国便成功研发出用于超算的自主知识产权的国产芯片。
    业内人士认为，美国禁止AI芯片销往中国，是打击超级计算机、高效能运算以及AI等领域的措施之一，去年美国将7家超算企业及研发机构列入“贸易黑名单”，如今又禁止英伟达、AMD向中国销售AI芯片，未来不排除会扩大制裁范围。
    然而，近日，非盈利性机器学习开放组织MLCommons联盟发布报告指出，国产高端GPU芯片企业——壁仞科技的AI芯片拥有出色的效率，甚至超越其中一款被美国政府限制出售的AI芯片。
    有专家认为，这是里程碑的代表，国内厂商获得了额外的机会，因为许多客户无法取得国外的芯片，而国内厂商正在生产类似的产品。
    【国产GPU赛道的“种子选手”】
    据了解，壁仞科技创立于2019年，是国内一家通用智能芯片的初创企业，也是国产图形GPU赛道的“种子选手”。截至目前，壁仞科技已完成B轮融资，总融资额超50亿元人民币。
    今年4月，公司公布首款通用GPU芯片BR100系列，是首款面向云端AI训练集推理的通用GPU算力产品。
    该系列芯片架构完全由壁仞科技自主原创研发，核心性能能够直接对标国际厂商近期发布的旗舰产品。消息称，其峰值算力超过了英伟达目前在售的旗舰A100。

    据了解，BR100芯片采用7nm制程、壁仞原创“壁立仞”芯片架构，容纳近800亿颗晶体管，配备超300MB片上高速SRAM，并应用Chiplet与2.5D CoWoS封装技术，突破了大尺寸芯片制造与封装中的光罩尺寸限制问题，做到高良率与高性能的兼顾。
    总体而言，壁仞科技BR100最大的爆点在于单芯片1000TFLOPs，以及这是在550W功耗约束下的算力。在发布会上，壁仞科技创始人、董事长、CEO张文称，中国通用GPU芯片进入每秒1,000,000,000,0000,000次计算新时代。
    BR100系列芯片将主要用于AI训练推理、通运用算等场景，在智慧城市、云游戏、自动驾驶等领域都有很大的发挥空间。
    据消息称，壁仞的CTO是华为海思出身的洪洲，当年海思推GPU，进展很好，但是被美国制裁了，壁仞的技术团队还有不少技术才俊，包括曾创建高通公司骁龙GPU团队、领导了5代Adreno GPU架构开发的首席架构师焦国方，前阿里云AI基础架构负责人徐凌杰，海光前海外GPU部门副总裁张凌岚，EDA软件巨头Synopsys（新思科技）前AI Lab负责人唐杉，AMD前全球副总裁、中国研发中心总经理李新荣，英伟达前上海总经理杨超源等。
    【BR104创造全球通用GPU最高算力】
    近日，全球权威AI基准评测MLPerf公布了最新AI基准测试结果（MLPerf Inference v2.1）。壁仞科技以最新发布的通用GPU芯片BR104，拿下数据中心推理评测中自然语言理解（BERT模型）和图像分类（ResNet50模型）两类基准评测“available”（可售产品类别）单卡性能全球第一的成绩，其中BR104在BERT模型下达到了英伟达A100单卡性能的1.58倍。

    据了解，MLPerf由图灵奖得主大卫·帕特森（David?Patterson）联合谷歌、斯坦福大学、哈佛大学等共同成立，是国际上最权威、最有影响力的基准测试之一。为及时跟踪和评测迅速发展的AI计算需求与性能，MLPerf每年组织2次AI测试。其数据中心场景的评测，综合考察参与厂商的硬件系统和软件优化能力，而此次BR104参加的“Closed Division”（固定任务）类别，则要求参评者在完全一致的模型和环境下进行性能结果的提交，因此这一类别下的结果被认为是全球数据中心产业最具参考价值的AI性能基准测试结果。
    与此同时，在BERT模型下，BR104还拿下了4卡整机、8卡整机性能全球第一的成绩，算力能效比也远远领先于其他厂商，达到英伟达A100算力能效比的2.11倍。BERT模型是目前自然语言理解领域应用最广泛的模型之一，也是相关产业应用中最重要的模型。
    壁仞科技董事长、创始人、CEO张文表示，ResNet50模型和BERT模型是目前产业客户最重视的AI模型，此次MLPerf最新发布的评测结果，直接证明了BR100系列通用GPU芯片的落地应用能力。目前，BR104已经开始了大规模的客户送测和适配，性能更强大的BR100也已启动落地应用，我们对BR100系列未来的应用前景充满信心。
    【硝烟开始弥漫】
    长期以来，全球GPU产业都被英伟达和AMD等美国企业所垄断，在美国禁令的背景下，中国在技术领域“自给自足”的重要性愈发凸显。
    当下，看到机会的不止是壁仞科技，除了早先入局的寒武纪、比特大陆、燧原科技等云端芯片创企外，过去一年间，陆续有新玩家现身，大量资本也正积极地涌入这一赛道。
    分析机构CCS Insight的分析师表示，壁仞科技已经展现出实力，商机已经落在他们身上，可能会因此获得成功。此外，有分析师认为，要在人工智能领域获得成功，不仅是生产芯片，还需要一套与英伟达CUDA平台竞争的完整的人工智能软件生态系统，而这挑战难度极大。
    众所周知，英伟达的一个关键优势在于2006年发表的CUDA通用并行计算平台和编程模型，让GPU成为并行运算的首选，如今已被开发者们大量使用。
    壁仞科技CTO洪洲曾表示，新的GPU板卡要无缝地支持CUDA生态，这比更高的算力，更好的能效比更重要。目前阶段必须保证用CUDA写的程序能无缝运行在壁仞科技的异构计算开发平台上，不应当为了追求所谓的极致能效，而打破对通用编程模型的兼容性。
    当前壁仞科技的第一要务是在打造自有编程模型的同时，兼容CUDA当前版本，而壁仞科技的终极目标，是提供比CUDA更好的自研编程模型。
    国内云端AI芯片及GPU赛道的硝烟正开始弥漫，入局者将越来越多。
    毕竟，GPU, CPU, NPU, XPU国产化是这一代国人工程师的历史使命，也是中国拿下电车，自动驾驶，物联网这些蛋糕的前置条件。