ROCm加持，RX 7900 XT 本地AI出圖效率暴增！-3樓貓

今年可以算得上是AIGC應用爆發之年了，特別是使用Stable Diffusion本地出圖，幾乎成了玩家必備AI應用。AMD旗下采用RDNA3架構的RX 7000系列顯卡不但擁有出色的AI算力，其中的RX 7900系列還配備了超大的顯存，特別適合用來AI出圖。當然，可能多數玩家還是在Windows系統下以DirectML模式驅動RX 7000顯卡出圖，實際上，如果用上AMD ROCm模式，RX 7000顯卡在Stable Diffusion中的出圖效率還會大幅提升。這裡我們就用備受玩家追捧的大顯存高性價比出圖利器RX 7900 XT為大家實戰體驗一下ROCm的威力。

AMD ROCm是什麼？

總的來說，AMD ROCm（Radeon Open Computing platforM：Radeon開放計算平臺）是一個開放式軟件堆棧，包含了多種編程模型、工具、編譯器、庫和運行時，用於開發面向AMD GPU的AI與HPC解決方案。AMD ROCm 軟件提供了針對各種 AI 工作負載的優化方案，適用於大型語言模型（LLM）、圖像/視頻檢測與識別、生命科學與藥物研發、自動駕駛、機器人等領域，並支持更廣泛的包括開放式框架、模型和工具在內的 AI 軟件生態系統。簡單點說，ROCm就是AMD的一個軟件平臺，用來支持Radeon GPU計算。在使用Radeon GPU的時候，編程模型用的是HIP或者OpenCL，而運行環境則是ROCm。既然是AMD自己專為Radeon GPU打造的軟件平臺，那麼ROCm的效率比通用型的DirectML高也是理所當然了，所以用RX 7000顯卡出圖的朋友，我們強烈推薦使用ROCm模式。ROCm For Windows早在去年就已經推出，目前支持設備的型號在不斷增加中（從上面的圖中可以看到RX 6800及以上都是完全支持HIP SDK和運行時的），不過如果玩家想要最成熟的體驗，可以在基於Linux的系統下使用ROCm。

RDNA3架構加上20GB超大顯存，RX 7900 XT特別適合AIGC

作為RX 7000系列的次旗艦，RX 7900 XT的定位稱得上是性價比十分突出的高端甜品，尤其在AIGC方面更是具備極高的競爭力。RX 7900 XT採用RDNA3架構，總面積與上代RX 6950 XT相同，但晶體管達到上代的2.15倍以上，因此能效表現相對上代RDNA2大幅提升。此外，RDNA3架構相對上代新增了AI加速器單元，無限緩存也升級到了第二代，等效顯存帶寬是RX 6950 XT的1.67倍，由此也帶來了更為強悍的數據吞吐能力。

RX 7900 XT之所以被稱為AI利器，一方面是它擁有強悍的算力，單精度峰值性能高達52 TFLOPS，半精度峰值性能高達103 TFLOPS，分別是RX 6950 XT的2.2倍和2.18，算力直接決定了AI計算的速度，而這方面RX 7900 XT無疑是一流水平；另一方面就是它擁有320 bit位寬、容量高達20 GB的GDDR6顯存，這對於AI出圖來講就意味著高分辨率出圖適應性更好。

此外，目前高端顯卡市場中，16GB顯存的RTX 4080售價接近八千元，再往上就是天價的RTX 4090，基本上和性價比已經沒什麼關係。相比之下，擁有20GB超大顯存的RX 7900 XT僅需5000元出頭就顯得性價比爆棚，加上ROCm更是能讓出圖效率暴增，特別適合追求高效出圖的玩家。

接下來就讓我們一起來看看RX 7900 XT在ROCm加持下、在Stable Diffusion中的出圖表現吧。

實戰測試：RX 7900 XT + ROCm，出圖效率起飛

測試平臺

處理器：AMD銳龍9 7900X

內存：金士頓Fury DDR5 6000 16GB×2

主板：華碩TUF GAMING B650M-PLUS WIFI 重炮手

顯卡：AMD Radeon RX 7900 XT

硬盤：WD_BLACK SN850X 2TB

電源：ROG雷神1200W

操作系統：Ubuntu 22.04.3 LTS

▲安裝Ubuntu 22.04.3 LTS操作系統與Stable Diffusion Webui

▲可以看到ROCm模組的信息

▲生成5張圖耗時13.4秒

打開Stable Diffusion之後，我們設置迭代步數20、Euler a採樣、512×512分辨率、CFG為7，模型選用麥橘唯美人物模型V1.0來進行文生圖。從測試來看，RX 7900 XT完成的時間為13.4秒，相比之前在Windows 11系統+DirectML模式下同樣參數設置的22秒來講速度暴增了63%之多。

▲生成10張圖耗時26.9秒

讓我們再進一步增加計算壓力，一次生成10張圖，此時RX 7900 XT也是全力輸出，完成的時間為26.9秒，相比Windows 11下DirectML模式的47秒更是快了75%，可見出圖數量越多，ROCm相對於DirectML的效率優勢也越明顯。

▲出圖的時候啟用細節修復來修復臉部，5張圖的完成時間為20.3秒

▲ROCm支持下，即便是開啟細節修復，出圖速度也比DirectML模式快近10%

為了進一步提升人物圖片臉部的出圖效果，我們在出圖的時候勾選細節修復，選擇修復模型為mediapipe_face_full，此時完成5張圖的時間為20.3秒，也比Windows 11的DirectML模式不開細節修復快了接近10%，而且畫面效果更好，臉部沒有BUG。

由此可見，在ROCm的加持之下，RX 7900 XT在Stable Diffusion中的出圖效率確實得到了極大的提升,而RX 7900 XT超高的出圖速度也讓我們十分驚喜。值得一提的是，目前Windows版的ROCm其實已經實裝了，並且對RX 7000提供了完備的支持，因此Windows平臺的RX 7000用戶也可以享受到這一特性了。綜上所述，如果你要選擇一塊具備20GB超大顯存的本地AI出圖高性價比利器，那麼RX 7900 XT確實是當下特備值得優先選擇的產品。

總結：AIGC大顯存高效利器，RX 7900 XT性價比無敵手

從前面的分析可以看到，RX 7900 XT不但本身擁有極強的算力，而且還擁有20GB超大顯存，超過了RTX 4080的16GB顯存，很顯然更大的顯存也更有利於提升AI出圖的分辨率和效率。此外，RX 7900 XT在顯存更大的情況下售價僅約為RTX 4080的61%，性價比堪稱完勝，在高端AIGC顯卡中可以說沒有敵手。從Stable Diffusion ROCm版的實測來看，RX 7900 XT的出圖效率遠遠超過DirectML模式。因此，對於有較高專業AIGC應用需求的用戶來講，RX 7900 XT可以說是非常適合的選擇。

實際的AIGC裝機方面，從我們列出的這兩套旗艦配置可以看到，AMD平臺採用了銳龍9 7950X與RX 7900 XT的組合，而Intel平臺則是酷睿i9 14900K與RTX 4080的組合。從總價可以看到，AMD這套配置擁有5350元的價格優勢，同時顯存還多出4GB，不光在AIGC應用中可以發揮強悍的性能，在其他生產力應用中也有一流的表現，屬於既全能性價比又高的方案。而Intel平臺這邊總價高出36%，性價比明顯落後，顯存也更小，在AI出圖或其他生產力應用中不免受到更多限制。

總而言之，如果你需要經常面對比較專業的AIGC應用，特別看重超大顯存，同時也想享受極致的性價比，那麼RX 7900 XT確實是非常值得優先考慮的解決方案，在ROCm支持下甚至還可以進一步獲得巨大的AI計算效率提升。