ROCm加持,RX 7900 XT 本地AI出图效率暴增!


3楼猫 发布时间:2024-04-07 18:32:24 作者:电脑报 Language

今年可以算得上是AIGC应用爆发之年了,特别是使用Stable Diffusion本地出图,几乎成了玩家必备AI应用。AMD旗下采用RDNA3架构的RX 7000系列显卡不但拥有出色的AI算力,其中的RX 7900系列还配备了超大的显存,特别适合用来AI出图。当然,可能多数玩家还是在Windows系统下以DirectML模式驱动RX 7000显卡出图,实际上,如果用上AMD ROCm模式,RX 7000显卡在Stable Diffusion中的出图效率还会大幅提升。这里我们就用备受玩家追捧的大显存高性价比出图利器RX 7900 XT为大家实战体验一下ROCm的威力。
AMD ROCm是什么?
总的来说,AMD ROCm(Radeon Open Computing platforM:Radeon开放计算平台)是一个开放式软件堆栈,包含了多种编程模型、工具、编译器、库和运行时,用于开发面向AMD GPU的AI与HPC解决方案。AMD ROCm 软件提供了针对各种 AI 工作负载的优化方案,适用于大型语言模型 (LLM)、图像/视频检测与识别、生命科学与药物研发、自动驾驶、机器人等领域,并支持更广泛的包括开放式框架、模型和工具在内的 AI 软件生态系统。简单点说,ROCm就是AMD的一个软件平台,用来支持Radeon GPU计算。在使用Radeon GPU的时候,编程模型用的是HIP或者OpenCL,而运行环境则是ROCm。既然是AMD自己专为Radeon GPU打造的软件平台,那么ROCm的效率比通用型的DirectML高也是理所当然了,所以用RX 7000显卡出图的朋友,我们强烈推荐使用ROCm模式。ROCm For Windows早在去年就已经推出,目前支持设备的型号在不断增加中(从上面的图中可以看到RX 6800及以上都是完全支持HIP SDK和运行时的),不过如果玩家想要最成熟的体验,可以在基于Linux的系统下使用ROCm。
RDNA3架构加上20GB超大显存,RX 7900 XT特别适合AIGC
作为RX 7000系列的次旗舰,RX 7900 XT的定位称得上是性价比十分突出的高端甜品,尤其在AIGC方面更是具备极高的竞争力。RX 7900 XT采用RDNA3架构,总面积与上代RX 6950 XT相同,但晶体管达到上代的2.15倍以上,因此能效表现相对上代RDNA2大幅提升。此外,RDNA3架构相对上代新增了AI加速器单元,无限缓存也升级到了第二代,等效显存带宽是RX 6950 XT的1.67倍,由此也带来了更为强悍的数据吞吐能力。
RX 7900 XT之所以被称为AI利器,一方面是它拥有强悍的算力,单精度峰值性能高达52 TFLOPS,半精度峰值性能高达103 TFLOPS,分别是RX 6950 XT的2.2倍和2.18,算力直接决定了AI计算的速度,而这方面RX 7900 XT无疑是一流水平;另一方面就是它拥有320 bit位宽、容量高达20 GB的GDDR6显存,这对于AI出图来讲就意味着高分辨率出图适应性更好。
此外,目前高端显卡市场中,16GB显存的RTX 4080售价接近八千元,再往上就是天价的RTX 4090,基本上和性价比已经没什么关系。相比之下,拥有20GB超大显存的RX 7900 XT仅需5000元出头就显得性价比爆棚,加上ROCm更是能让出图效率暴增,特别适合追求高效出图的玩家。
接下来就让我们一起来看看RX 7900 XT在ROCm加持下、在Stable Diffusion中的出图表现吧。
实战测试:RX 7900 XT + ROCm,出图效率起飞
测试平台
处理器:AMD锐龙9 7900X
内存:金士顿Fury DDR5 6000 16GB×2
主板:华硕TUF GAMING B650M-PLUS WIFI 重炮手
显卡:AMD Radeon RX 7900 XT
硬盘:WD_BLACK SN850X 2TB
电源:ROG雷神1200W
操作系统:Ubuntu 22.04.3 LTS
▲安装Ubuntu 22.04.3 LTS操作系统与Stable Diffusion Webui

▲安装Ubuntu 22.04.3 LTS操作系统与Stable Diffusion Webui

▲可以看到ROCm模组的信息

▲可以看到ROCm模组的信息

▲生成5张图耗时13.4秒

▲生成5张图耗时13.4秒

打开Stable Diffusion之后,我们设置迭代步数20、Euler a采样、512×512分辨率、CFG为7,模型选用麦橘唯美人物模型V1.0来进行文生图。从测试来看,RX 7900 XT完成的时间为13.4秒,相比之前在Windows 11系统+DirectML模式下同样参数设置的22秒来讲速度暴增了63%之多。
▲生成10张图耗时26.9秒

▲生成10张图耗时26.9秒

让我们再进一步增加计算压力,一次生成10张图,此时RX 7900 XT也是全力输出,完成的时间为26.9秒,相比Windows 11下DirectML模式的47秒更是快了75%,可见出图数量越多,ROCm相对于DirectML的效率优势也越明显。
▲出图的时候启用细节修复来修复脸部,5张图的完成时间为20.3秒

▲出图的时候启用细节修复来修复脸部,5张图的完成时间为20.3秒

▲ROCm支持下,即便是开启细节修复,出图速度也比DirectML模式快近10%

▲ROCm支持下,即便是开启细节修复,出图速度也比DirectML模式快近10%

为了进一步提升人物图片脸部的出图效果,我们在出图的时候勾选细节修复,选择修复模型为mediapipe_face_full,此时完成5张图的时间为20.3秒,也比Windows 11的DirectML模式不开细节修复快了接近10%,而且画面效果更好,脸部没有BUG。
由此可见,在ROCm的加持之下,RX 7900 XT在Stable Diffusion中的出图效率确实得到了极大的提升,而RX 7900 XT超高的出图速度也让我们十分惊喜。值得一提的是,目前Windows版的ROCm其实已经实装了,并且对RX 7000提供了完备的支持,因此Windows平台的RX 7000用户也可以享受到这一特性了。综上所述,如果你要选择一块具备20GB超大显存的本地AI出图高性价比利器,那么RX 7900 XT确实是当下特备值得优先选择的产品。
总结:AIGC大显存高效利器,RX 7900 XT性价比无敌手
从前面的分析可以看到,RX 7900 XT不但本身拥有极强的算力,而且还拥有20GB超大显存,超过了RTX 4080的16GB显存,很显然更大的显存也更有利于提升AI出图的分辨率和效率。此外,RX 7900 XT在显存更大的情况下售价仅约为RTX 4080的61%,性价比堪称完胜,在高端AIGC显卡中可以说没有敌手。从Stable Diffusion ROCm版的实测来看,RX 7900 XT的出图效率远远超过DirectML模式。因此,对于有较高专业AIGC应用需求的用户来讲,RX 7900 XT可以说是非常适合的选择。
实际的AIGC装机方面,从我们列出的这两套旗舰配置可以看到,AMD平台采用了锐龙9 7950X与RX 7900 XT的组合,而Intel平台则是酷睿i9 14900K与RTX 4080的组合。从总价可以看到,AMD这套配置拥有5350元的价格优势,同时显存还多出4GB,不光在AIGC应用中可以发挥强悍的性能,在其他生产力应用中也有一流的表现,属于既全能性价比又高的方案。而Intel平台这边总价高出36%,性价比明显落后,显存也更小,在AI出图或其他生产力应用中不免受到更多限制。
总而言之,如果你需要经常面对比较专业的AIGC应用,特别看重超大显存,同时也想享受极致的性价比,那么RX 7900 XT确实是非常值得优先考虑的解决方案,在ROCm支持下甚至还可以进一步获得巨大的AI计算效率提升。

© 2022 3楼猫 下载APP 站点地图 广告合作:asmrly666@gmail.com