ROCm加持,RX 7900 XT 本地AI出圖效率暴增!


3樓貓 發佈時間:2024-04-07 18:32:24 作者:電腦報 Language

今年可以算得上是AIGC應用爆發之年了,特別是使用Stable Diffusion本地出圖,幾乎成了玩家必備AI應用。AMD旗下采用RDNA3架構的RX 7000系列顯卡不但擁有出色的AI算力,其中的RX 7900系列還配備了超大的顯存,特別適合用來AI出圖。當然,可能多數玩家還是在Windows系統下以DirectML模式驅動RX 7000顯卡出圖,實際上,如果用上AMD ROCm模式,RX 7000顯卡在Stable Diffusion中的出圖效率還會大幅提升。這裡我們就用備受玩家追捧的大顯存高性價比出圖利器RX 7900 XT為大家實戰體驗一下ROCm的威力。
AMD ROCm是什麼?
總的來說,AMD ROCm(Radeon Open Computing platforM:Radeon開放計算平臺)是一個開放式軟件堆棧,包含了多種編程模型、工具、編譯器、庫和運行時,用於開發面向AMD GPU的AI與HPC解決方案。AMD ROCm 軟件提供了針對各種 AI 工作負載的優化方案,適用於大型語言模型 (LLM)、圖像/視頻檢測與識別、生命科學與藥物研發、自動駕駛、機器人等領域,並支持更廣泛的包括開放式框架、模型和工具在內的 AI 軟件生態系統。簡單點說,ROCm就是AMD的一個軟件平臺,用來支持Radeon GPU計算。在使用Radeon GPU的時候,編程模型用的是HIP或者OpenCL,而運行環境則是ROCm。既然是AMD自己專為Radeon GPU打造的軟件平臺,那麼ROCm的效率比通用型的DirectML高也是理所當然了,所以用RX 7000顯卡出圖的朋友,我們強烈推薦使用ROCm模式。ROCm For Windows早在去年就已經推出,目前支持設備的型號在不斷增加中(從上面的圖中可以看到RX 6800及以上都是完全支持HIP SDK和運行時的),不過如果玩家想要最成熟的體驗,可以在基於Linux的系統下使用ROCm。
RDNA3架構加上20GB超大顯存,RX 7900 XT特別適合AIGC
作為RX 7000系列的次旗艦,RX 7900 XT的定位稱得上是性價比十分突出的高端甜品,尤其在AIGC方面更是具備極高的競爭力。RX 7900 XT採用RDNA3架構,總面積與上代RX 6950 XT相同,但晶體管達到上代的2.15倍以上,因此能效表現相對上代RDNA2大幅提升。此外,RDNA3架構相對上代新增了AI加速器單元,無限緩存也升級到了第二代,等效顯存帶寬是RX 6950 XT的1.67倍,由此也帶來了更為強悍的數據吞吐能力。
RX 7900 XT之所以被稱為AI利器,一方面是它擁有強悍的算力,單精度峰值性能高達52 TFLOPS,半精度峰值性能高達103 TFLOPS,分別是RX 6950 XT的2.2倍和2.18,算力直接決定了AI計算的速度,而這方面RX 7900 XT無疑是一流水平;另一方面就是它擁有320 bit位寬、容量高達20 GB的GDDR6顯存,這對於AI出圖來講就意味著高分辨率出圖適應性更好。
此外,目前高端顯卡市場中,16GB顯存的RTX 4080售價接近八千元,再往上就是天價的RTX 4090,基本上和性價比已經沒什麼關係。相比之下,擁有20GB超大顯存的RX 7900 XT僅需5000元出頭就顯得性價比爆棚,加上ROCm更是能讓出圖效率暴增,特別適合追求高效出圖的玩家。
接下來就讓我們一起來看看RX 7900 XT在ROCm加持下、在Stable Diffusion中的出圖表現吧。
實戰測試:RX 7900 XT + ROCm,出圖效率起飛
測試平臺
處理器:AMD銳龍9 7900X
內存:金士頓Fury DDR5 6000 16GB×2
主板:華碩TUF GAMING B650M-PLUS WIFI 重炮手
顯卡:AMD Radeon RX 7900 XT
硬盤:WD_BLACK SN850X 2TB
電源:ROG雷神1200W
操作系統:Ubuntu 22.04.3 LTS
▲安裝Ubuntu 22.04.3 LTS操作系統與Stable Diffusion Webui

▲安裝Ubuntu 22.04.3 LTS操作系統與Stable Diffusion Webui

▲可以看到ROCm模組的信息

▲可以看到ROCm模組的信息

▲生成5張圖耗時13.4秒

▲生成5張圖耗時13.4秒

打開Stable Diffusion之後,我們設置迭代步數20、Euler a採樣、512×512分辨率、CFG為7,模型選用麥橘唯美人物模型V1.0來進行文生圖。從測試來看,RX 7900 XT完成的時間為13.4秒,相比之前在Windows 11系統+DirectML模式下同樣參數設置的22秒來講速度暴增了63%之多。
▲生成10張圖耗時26.9秒

▲生成10張圖耗時26.9秒

讓我們再進一步增加計算壓力,一次生成10張圖,此時RX 7900 XT也是全力輸出,完成的時間為26.9秒,相比Windows 11下DirectML模式的47秒更是快了75%,可見出圖數量越多,ROCm相對於DirectML的效率優勢也越明顯。
▲出圖的時候啟用細節修復來修復臉部,5張圖的完成時間為20.3秒

▲出圖的時候啟用細節修復來修復臉部,5張圖的完成時間為20.3秒

▲ROCm支持下,即便是開啟細節修復,出圖速度也比DirectML模式快近10%

▲ROCm支持下,即便是開啟細節修復,出圖速度也比DirectML模式快近10%

為了進一步提升人物圖片臉部的出圖效果,我們在出圖的時候勾選細節修復,選擇修復模型為mediapipe_face_full,此時完成5張圖的時間為20.3秒,也比Windows 11的DirectML模式不開細節修復快了接近10%,而且畫面效果更好,臉部沒有BUG。
由此可見,在ROCm的加持之下,RX 7900 XT在Stable Diffusion中的出圖效率確實得到了極大的提升,而RX 7900 XT超高的出圖速度也讓我們十分驚喜。值得一提的是,目前Windows版的ROCm其實已經實裝了,並且對RX 7000提供了完備的支持,因此Windows平臺的RX 7000用戶也可以享受到這一特性了。綜上所述,如果你要選擇一塊具備20GB超大顯存的本地AI出圖高性價比利器,那麼RX 7900 XT確實是當下特備值得優先選擇的產品。
總結:AIGC大顯存高效利器,RX 7900 XT性價比無敵手
從前面的分析可以看到,RX 7900 XT不但本身擁有極強的算力,而且還擁有20GB超大顯存,超過了RTX 4080的16GB顯存,很顯然更大的顯存也更有利於提升AI出圖的分辨率和效率。此外,RX 7900 XT在顯存更大的情況下售價僅約為RTX 4080的61%,性價比堪稱完勝,在高端AIGC顯卡中可以說沒有敵手。從Stable Diffusion ROCm版的實測來看,RX 7900 XT的出圖效率遠遠超過DirectML模式。因此,對於有較高專業AIGC應用需求的用戶來講,RX 7900 XT可以說是非常適合的選擇。
實際的AIGC裝機方面,從我們列出的這兩套旗艦配置可以看到,AMD平臺採用了銳龍9 7950X與RX 7900 XT的組合,而Intel平臺則是酷睿i9 14900K與RTX 4080的組合。從總價可以看到,AMD這套配置擁有5350元的價格優勢,同時顯存還多出4GB,不光在AIGC應用中可以發揮強悍的性能,在其他生產力應用中也有一流的表現,屬於既全能性價比又高的方案。而Intel平臺這邊總價高出36%,性價比明顯落後,顯存也更小,在AI出圖或其他生產力應用中不免受到更多限制。
總而言之,如果你需要經常面對比較專業的AIGC應用,特別看重超大顯存,同時也想享受極致的性價比,那麼RX 7900 XT確實是非常值得優先考慮的解決方案,在ROCm支持下甚至還可以進一步獲得巨大的AI計算效率提升。

© 2022 3樓貓 下載APP 站點地圖 廣告合作:asmrly666@gmail.com