AMD RX 7900 XT Linux AI性能体验

2024.04.15 快科技

一、ROCm：一个可移植、高性能的GPU计算平台
    随着AI时代的来临，显卡的作用不再仅仅只局限于游戏，特别是在Stable Diffusion火爆全网之后，越来越多的玩家将显卡当成AIGC生产力工具。
    只不过，Stable Diffusion的早期版本对AMD显卡支持不太友好，给大家造成了只有N卡才适合玩AI的错觉。
    可能很多同学不知道的是，AMD的Radeon GPU也是能够做深度学习的，而且性能也并不差。
    去年12月份，AMD推出的ROCm 6.0开发平台进一步优化了RX 7000系列显卡的AI性能，特别是Stable Diffusion的出图效率更是获得了翻倍提升。

    这里先解释一下什么是AMD ROCm！
    ROCm （Radeon Open Compute Platform ）是 AMD 基于开源项目的 GPU计算生态系统，类似于 NVIDIA 的 CUDA。
    ROCm 支持多种编程语言、编译器、库和工具，以加速科学计算、自动驾驶、人工智能和机器学习等领域的应用。
    ROCm还支持多种加速器厂商和架构，提供了开放的可移植性和互操作性。
    目前深度学习开发一般都是使用Python，而大数据平台往往都会部署在Linux操作系统之上。因此，AMD ROCm目前主要精力放在Linux系统上，Windows端则还有待完善。



    得益于双发射设计的流处理器单元，RX 7900 XT仅凭5376个流处理器就达到了52TFOPS的单精度浮点运算性能，而拥有10240个流处理器的RTX 4080 Super浮点性能同样则是55TFOPS。
    至于RX 7900 XTX，其单精度浮点性能则接近60TFOPS。
    Stable Diffusion主要依赖GPU的单精度浮点性能以及显存容量与带宽，这两方面RX 7900 XT都不逊于RTX 4080 SUPER，甚至显存容量还更大一些。
    现在有了AMD ROCm 6.0的加持，终于可以发挥出这张顶级显卡强大的AI算力。
    二、Stable Diffusion出图速度对比：Linux系统下出图效率近乎翻倍
    测试平台如下：

    本次我们主要对比RX 7900 XT/XTX在Ubuntu与windows系统下的出图效率，看看AMD ROCm到底能带来多大提升。
    1、RX 7900 XT对比测试
    首先是Windows 11系统，打开Stable Diffusion之后，我们设置DPN++ 2M Karras采样、迭代步数50、Euler a采样、1024x768分辨率、CFG为7、总批次10，单批数量1。

    在Windows系统下，RX 7900 XT基于DirectML加速模式生成10张图共计耗时9分51秒，也就是591秒。

    进入Ubuntu 22.04.3 LTS系统，设置好ROCm之后，同样的参数与模型生成10张图只用掉了5分05秒，即305秒。
    对比之下，在Ubuntu 22.04.3 LTS系统下，RX 7900 XT的出图效率相比Windows系统高了足足94%。
    2、RX 7900 XTX对比测试
    使用同样的参数来测试RX 7900 XTX显卡。

    在Windows系统下，RX 7900 XTX基于DirectML加速模式生成10张图总计耗时9分18秒，也就是558秒。

    进入Ubuntu 22.04.3 LTS系统，设置好ROCm之后，同样的参数与模型生成10张图只用掉了4分45秒，即285秒。
    在Ubuntu 22.04.3 LTS系统下，RX 7900 XTX的出图效率相比Windows系统领先了96%，也就是近乎翻倍的性能提升。
    三、小结：高性价比的AIGC显卡
    目前一张非公RX 7900 XT售价在5299元左右，对位的非公RTX 4080 Super售价则是8599元，N卡贵了60%。其实在游戏性能方面，这两款显卡并没有太大差距。
    现在AMD也意识到了AI应用对于GPU的重要性，加大了对AMD ROCm平台的投入，经过不断的更新，如今AMD ROCm 6.0在AI算力方面的提升早已超出了大多数玩家的认知。
    在我们的测试中，RX 7900 XT在Linux系统下使用Stable Diffusion ROCm 6.0版时，其出图效率几乎是Windows系统的2倍。再加上55TFOPS的单精度浮点运算性能以及20GB GDDR6X超大容量显存，对于有较高专业AIGC应用需求的专业用户而言，在有限的预算下，RX 7900 XT可以说是非常适合的选择。
    当然，也希望AMD能够继续优化ROCm在Windows系统下的性能表现，让更多的AMD用户能拥有属于自己的高性价比AIGC显卡。