黄氏定律再次生效,AI算力版图正越来越大

亿欧网

    相比售卖显卡,英伟达(NVIDIA)着力点毫无疑问是AI算力。
    1965年,得力于对行业的洞察,戈登·摩尔提出经典的摩尔定律,集成电路飞速发展,人类在信息时代中飞速发展,随后诞生了互联网浪潮,间接催生了微软、苹果、亚马逊、阿里巴巴、百度等科技公司,也加速了IBM、甲骨文等老牌科技公司的转型。
    千禧年后,学界进入“算力解放”世代,集成电路的智慧结晶“CPU”算力无法完全满足学者需要,人工智能算法对算力的支持更强劲、更多元,随后英伟达在2006年推出Tesla架构,借助CUDA系列编程环境,开启了AI算力次世代,黄氏定律持续发挥作用。
    在12月15日开始的2020 GTC中国大会上,英伟达带着2020新品NVIDIA A100,继续诠释着“加速计算”的定位。
    AI算力与商业世界的未来
    主导未来科技发展的关键已经落在人工智能,场景、数据、模型、算力缺一不可。
    根据OpenAI数据,自2012年以来,AI训练任务使用的算力呈指数级增长,每3.5个月翻一倍。科技公司正不断运用AI算法与新商业模式,推动AI能力渗透个人消费市场,底层代表则是算力服务者英伟达。
    在2020 GTC中国上,英伟达展示了阿里巴巴淘宝在使用NVIDIA GPU计算平台下为直播和AI推荐提供加速服务;快手也利用GPU超分辨率处理技术,将视频分辨率提升至720p或1080p;英伟达与京东物流基于Jetson平台打造的智能机器。
    在广袤的新能源汽车领域,芯片市场更是大有可为。仅在中国市场,中国汽车工程学会副秘书长叶盛基就预测2020年中国将销售130万辆新能源汽车,其背后涉足的是182.5亿美元的AI芯片市场。
    相比消费级市场,投资者也将目光转向更具成长力、前景更好、更注重运用AI技术的公司身上,其中汽车、大健康与基础元件是最受关注的领域。2012-2017年间,中国AI私募投资频数以68%的复合增长率快速增长,其中视觉类、数据挖掘、机器学习、语音等技术应用为企业首选。
    尽管在2020年行业周期变化下,一级市场投资频数有所下降,但明显单笔投资金额在加大,一级市场的投资窗口期即将结束,同时AI商业应用落地更多,企业对AI算力的需求也更加渴望。
    这一现象同样体现在二级市场,根据亿欧智库数据,截至2020年4月,共有91家从事人工智能技术开发与应用的中国企业完成上市。
    持续成长的中国AI市场,让英伟达看到比显卡更大的商业机会。
    黄氏定律再次生效
    在12月15日的GTC大会上,亿欧受邀参与了主论坛报道与中国区媒体沟通会。主论坛上,英伟达首席科学家Bill Dally围绕新架构产品A100,分享了AI推理、光追技术、集群加速以及各个落地产业的最新支持与应用。
    作为世界上最大7nm芯片,GPU A100基于Ampere架构,利用第三代Tensor Core,A100增加了对TF32的支持,可以获得156 TeraFLOPS(万亿次浮点运算每秒)性能,同时MIG技术可以将A100分解为7个独立GPU,而A100本身也支持第三代NVLink与NVSwitch,以集群形式产生更大算力。
    英伟达中国工程和解决方案高级总监赖俊杰表示,TF 32是介于FP 16与FP 32之间的中间态,满足研发人员与工程师在计算精度与速度的折中,一方面它有足够的动态范围与精度,保证网络在训练时没有任何精度损失,另一方面,利用Tensor Core架构提升神经网络计算性能。
    围绕这款新品,Bill Dally也提到,根据研究,大多数神经网络是可以修剪的,在切断神经元之间70%到90%连接后,精度并不发生太大变化。
    借助结构稀疏,Ampere在神经网络结构中允许4个权重中的两个为0,而在矩阵乘法中,一旦权重达成2/4模式,就能额外获得双倍性能提升,赖俊杰也表示,在实测中,神经网络计算效果也能获得1.5倍性能提升。
    
    英伟达GPU算力持续大幅提升/英伟达
    借助架构优势,英伟达集群高性能算力也表现突出。在11月超算TOP 500中,前十名中有8位采用了英伟达技术,英伟达Selene在TOP 500和Green 500中都名列第五,而中美欧的顶级超算中都采用了英伟达的技术。
    Bill Dally认为,黄氏定律揭示了推理性能持续提升的秘密。
    从28nm的Kepler、16nm到7nm的Ampere架构,英伟达持续对Tensor Core改进,不断优化电路设计与架构,抛弃传统集成电路对制程的依赖。在Bill Dally展示中,Ampere架构下数据中心的推理能力远高于竞争对手Intel以及Xilinx,边缘推理更是远超竞争对手。
    
    
    RTXDI效果对比图/英伟达
    在光追技术展示中,英伟达展示了直接照明技术RTXDI。利用这项技术,图形界面上每个光源都会将光线投射到相邻表面上,其支持数百万个光线,光线在物体表面会发生多次反射再回到眼睛,借助这项技术,光线效果将更加逼真。
    此外,Bill Dally还带来了DLSS(深度学习超级采样)2.0版本,相比1.0版本,2.0支持图像更加精确升级,图像升级后将与更高分辨率实际渲染的数据比较,其中误差部分会进入DGX SuperPODs训练神经网络loss函数,经过数据集的特定迭代,准确展示升级后的图像。
    这一技术也被用到视频的升级,利用神经网络,游戏画面可以显著提升动态帧率,同时电影在特效制作中也能基于物理性质实现路径追踪,镜面反射、折射与再折射都可以得到多光线采样。
    相比GPU产品性能展示,英伟达此次也更加强调集群计算的支持。
    Bill Dally在会上展示了英伟达MAGNet工具AI推理加速器模拟结果,其推理能力可以达到每瓦100 teraops,众所周知,运算中数据传输带来的能量损耗最大,MAGNet通过协调并控制信息流,最大限度减少数据传输来达到节能效果。
    
    传统电气链路与设计的光链路DGX/英伟达
    此外Bill Dally也与技术团队研究光链路取代电气链路的新技术,采用“密集波分复用”技术,就有可能在1毫米大小的芯片实现Tb/s级传输,将是现在互连密度的10倍以上。
    借助这一吞吐量和NVSwitch技术,Bill Dally和英伟达计划未来开发出依托光链路、搭载9排共160个GPU的DGX,这将大幅提升数据中心算力。
    在软件方面,全新编程系统原型Legate可以运行针对单一GPU编写的程序,其适用于Jetson Nano、A100以及超算,但目前Legate还无法对大量GPU进行理想的并行处理,Bill Dally与技术团队仍在优化。
    英伟达与中国公司的“危”与“机”
    在媒体沟通会上,英伟达GPU计算专家团队亚太区总监李曦鹏,强调英伟达25年来持续在进行“加速计算”。消费级市场对英伟达一直是“显卡厂商”定位,但从AI算力进入主流产学界后,加速计算这一定位开始充分体现。
    
    NVIDIA数据中心平台/英伟达
    除了显卡产品与新技术外,英伟达在大会上用了更多笔墨展示其在数据中心以及产业端的支持,包括第三代的NVLink和NVSwitch等技术的展望,其中还包括对中小企业、创业公司乃至传统公司的支持。
    例如围绕软件支持,李曦鹏提到,借助CUDA统一架构,英伟达保证了新的应用能持续满足市场需求,做到了算法、软件、硬件的相互配合,在本代Ampere架构下,TensorFlow有了专门的配套,TensorRT也提供更好的矩阵乘法支撑,甚至还有加速SDK,同时英伟达也积极投身到应用的开发上,满足更多企业或机构“开箱即用”,进一步服务更多B端。
    企业端的表现吸引了众多中国公司参与,包括阿里巴巴、字节跳动、中国电信、浪潮、快手等,中国的OEM厂商、云厂商、互联网企业都在利用英伟达相关产品与技术进行开发。
    英伟达医疗业务全球副总裁Kimberly Powell,在15日主论坛圆桌环节提到,中国平安、联影智能、推想科技和数坤科技在新冠疫情期间,利用英伟达GPU产品与技术,加快了影像诊断,为影像诊断提供巨大帮助。
    英伟达亚太区战略运营与合作伙伴副总裁Ashok Pandey,在圆桌中直接用中文表示,英伟达与中国云服务厂商合作已7年,目前顶级的中国云服务商已经推出或即将推出基于A100的新产品,更多AI应用也将面向更多云服务开发者和使用者。
    同时在超算中大放异彩的ARM也将在中国的云、数据中心、边缘计算场景市场中出现,英伟达宣称,未来ARM的开放度不会受到贸易管制影响。
    英伟达工程与解决方案高级总监李浩南表示,GPU加速的ARM服务器正在各个场景中夯实,目前在HPC、AI以及游戏中已有表现,更多中国公司将加入到ARM阵营。
    
    2013-2020英伟达投资布局版图/亿欧商业分析师赵宁
    除了产品与技术市场的合作外,英伟达过去在全球范围内布局了众多AI初创公司,本次大会上,12家中国初创公司得到了英伟达帮助。
    在本次GTC大会上,100家初创公司通过“英伟达初创加速计划”,在40家投资机构及产业代表投票中,12家企业参与了线上展示,涉及领域包括医疗、零售、消费互联网、深度学习、IoT、工业制造等领域。
    相比过去,英伟达对于中国市场的重视程度不断加强。中国是全球AI算力最富集的地区之一,大量AI与数字化公司需要更多算力支持,同时中国也是自动驾驶成长最快的市场,以百度Apollo、地平线、驭势科技、四维图新等为代表,AI芯片必将是核心需要。
    另一方面,目前中国市场占到英伟达收入一半左右,通过在ARM、Mellanox的布局,英伟达有了更强的数据中心建设能力,但同时也让中国客户不得不购买英伟达的产品。
    超算采购已经成为英伟达核心收入之一,通过外延并购,其完成了对超算产品的严密布局,中国公司进入的门槛被大大提高。
    换句话说,在服务器与底层技术上,中国公司与海外巨头的竞争差距被资本拉大,知名的OEM厂商看似在生产高附加值的服务器,但仍处于利润的微笑曲线底部。
    面对英伟达的橄榄枝,中国公司与市场充满了机遇与挑战,下游企业可以充分享受产品技术、乃至生态红利;英伟达、AMD、英特尔等半导体巨头仍占有巨大优势。
    这对国产自研的刺激并不低,寒武纪为代表的中国上市公司会越来越多,从另一个角度而言,这也不失为另一种机会。
    参考资料:
    《WIA2020 | 2020全球半导体芯片科技创新TOP50》,亿欧智库,何少佳,2020年12月9日
    《2020年中国人工智能商业落地研究报告》,亿欧智库,张一豪,2020年7月10日
    作者:黄志磊