大家好,我是加勒比考斯。
隨著小黑盒上面的周免遊戲越領越多,以及Stable Diffusion AI繪圖越來越好玩,相信很多玩家同我的心情一樣,急切想擁有一張好顯卡,快樂的遊戲、繪圖、以及辦公摸魚。
這段時間我真的是看了無數張顯卡的評測內容,一遍又一遍看顯卡天梯排行榜,一個一個對比價格與參數,從各個品牌口碑裡面選來選來,最終下手了索泰RTX 4070Ti SUPER Trinity OC月白顯卡。
原因主要有以下:
1、我查看了各種評測文章,發現4070TiS性能釋放都大差不差,這時候能選擇的只剩下性價比、設計感、散熱、售後以及品牌實力。
2、外觀好看其實是很大的一部分選擇原因,索泰RTX 4070Ti SUPER Trinity OC月白這張顯卡極具設計感,白色顯卡本來就少,另外它採用曲線設計,還有ARGB彩虹拱橋燈帶,顏值方面毋庸置疑。
3、索泰RTX 4070Ti SUPER Trinity OC月白的散熱很好,它採用9cm大尺寸仿生盾鱗2.0風扇加上加厚、加高的鍍鎳散熱鰭片模組,散熱方面完全不用擔心。
4、品牌實力非常強,索泰屬於全球一線顯卡品牌,是NVIDIA的全球核心AIC(擴展卡製造商),它隸屬於栢能集團,該集團是世界上最大的顯卡生產商之一,所以無論是性能、品質、口碑還是售後都非常好。
5、最後是價格,這也是最重要的,它只要6699的價格,這在一線品牌裡面是最低的。所以綜合而言,我下手了索泰RTX 4070Ti SUPER Trinity OC月白。
一、為什麼選擇RTX 4070Ti SUPER?
主要有2個原因:
1、買新不買舊!RTX 4070Ti SUPER是在今年年初的CES2024發佈,NVIDIA同時還發布了RTX 4080 SUPER和RTX 4070 SUPER。
請注意:新顯卡除遊戲辦公性能提升外,均加入生成式 AI功能。
2、Super系列沒有漲價!
RTX 4070 Ti SUPER和RTX 4070 SUPER的售價與之前的相應版本持平。RTX 4080 SUPER的發售價甚至比RTX 4080低了約16.7%。
二、NVIDIA Ada Lovelace 架構優勢在哪裡?
40系顯卡陣營最核心的部分當屬NVIDIA Ada Lovelace 架構,它在性能、能效和 AI 加速方面帶來了重大突破。所以在介紹索泰RTX 4070Ti SUPER Trinity OC月白之前,我們先來理一理為什麼可以選擇40系顯卡,Ada Lovelace 架構的優勢在哪裡?
RTX 4070 Ti SUPER是首款擁有256Bit顯存位寬的RTX 4070系列顯卡,同時還採用了更高一級的AD 103核心。芯片面積378.6平方毫米,集成了多達459億個晶體管。完整的AD103核心是為4080準備的,而AD103-275核心,也就是RTX 4070 Ti SUPER,直接屏蔽掉了下面一組GPC,一共還剩6組GPC、33組TPC、66個SM單元共8448個流處理器。此外,它還有264個第四代Tensor張量核心、66個第三代RT光追核心、264個紋理單元、96個ROP單元以及48MB二級緩存。
1、核心技術升級
1.1、第三代 RT 核心:提供了前一代的2倍光線追蹤性能,為真實感渲染提供了突破性的性能。
1.2、第四代 Tensor 核心:設計用於加速變革性的 AI 技術,使用新的 FP8 Transformer Engine,提供了高達前一代 4 倍的推理性能。
1.3、CUDA 核心:Ada 基礎的 CUDA核心為單精度浮點 (FP32) 運算提供了前一代 GPU 的2倍速度處理能力。
2、性能提升
2.1、Shader Execution Reordering (SER):動態地重新組織低效的工作負載,顯著提高了著色器在光線追蹤操作中的性能,最多可提高遊戲幀率 25%。
2.2、DLSS 3:NVIDIA DLSS 3 是基於 AI 的圖形的一項革命性突破,大幅提升了性能。DLSS 3 由 GeForce RTX 40 系列 GPU 所搭載的全新第四代 Tensor Core 和光流加速器提供支持,可使用 AI 創建額外的高質量幀。
3、視頻和視覺 AI 加速
3.1、AV1 編碼器:Ada 架構的顯卡配備了新的第八代 NVIDIA Encoders (NVENC),支持 AV1 編碼,與 H.264 相比,編碼效率提高了 40%,允許以相同比特率和質量下,將 1080p 的流分辨率提高到 1440p。
4、製造工藝和能效
4.1、4N 製造工藝:NVIDIA工程師與臺積電緊密合作,開發了專門為NVIDIA GPU設計的4N製造工藝。這種更先進的工藝使得在芯片中集成更多處理單元和內存成為可能。比如雖然 GeForce RTX 4090 的 Boost Clock 頻率達到了 2.5 GHz,比上一代的旗艦產品 RTX 3090 Ti 高出 660 MHz,但其總圖形功率(TGP)仍為 450W。與上一代的 Ampere 架構相比,Ada 架構的能效提高了2倍。
5、光線追蹤技術
5.1、光線-三角形交叉測試:速度提高了2倍,使得光線追蹤更加高效。
5.2、Opacity Micromap Engine (OMM) 和 Displaced Micro-Mesh Engine (DMM):這兩種引擎分別加速了 alpha-tested 紋理的光線追蹤和幾何複雜場景的實時光線追蹤。
如果看不懂沒關係,再簡單總結一下:
40 系列顯卡相較於 30 系列顯卡在多個方面有顯著的提升,無論是光柵化性能、光線追蹤性能、DLSS 性能都是2倍以上的提升!無論是打遊戲還是內容創作體驗提升都非常大。
顯卡介紹
索泰(ZOTAC)是全球知名的顯卡品牌,隸屬於栢能集團,是NVIDIA的核心合作伙伴之一。索泰一直以其高性能、創新設計和時尚風格而聞名,我買的這塊是RTX 4070Ti SUPER Trinity OC月白顯卡。
索泰RTX 4070Ti SUPER Trinity OC月白顯卡是基於3風扇設計,外型採用曲線設計,正面蓋板純白,十分百搭。注意:正面3個風扇是9CM大尺寸仿生盾鱗2.0風扇,不僅扇葉面積提升,而且優化了每一片扇葉的曲率和鱗狀仿生條紋,可以提升風扇風量、風壓和風流。
其中RGB區域是透明亞克力裝飾,裡面印有ZOTAC Gaming字樣與4道ARGB彩虹橋燈帶,支持1600萬色調色及多種燈效模式調節,可以根據個人需求變換個性燈效。
背部是有鏤空設計的高強度合金材料一體鑄形而成的合金背板,合金型材不僅可以為顯卡PCB板提供足夠的支撐,避免長期使用時因其自身重力而變形,而且可以為顯卡提供非常好的散熱能力,讓顯卡即使長時間,大負荷的使用,也不易過降頻。另外還能提升顯卡靜電防護能力。
另外透過鏤空區域,可以看到內置加厚、加高的鍍鎳散熱鰭片模組,能夠大幅度提升鰭片散熱面積和導熱能力。
供電部分,索泰RTX 4070Ti SUPER Trinity OC月白顯卡為16Pin的PCIe 5.0供電接口。
接口部分,索泰RTX 4070Ti SUPER Trinity OC月白顯卡配備了3個DP1.4a接口與1個HDMI 2.1接口。
顯卡的尾部可以清晰的看到索泰RTX 4070Ti S背部5根熱管的尾端。值得一提的是索泰RTX 4070Ti SUPER Trinity OC月白顯卡的散熱部分採用了最新的lceStorm 2.0散熱系統,可以進一步優化顯卡散熱效能,即便是滿載遊玩各類3A大型遊戲,也能輕鬆壓住溫度。
實際光效如下:
另外關於功能設計方面:
1、索泰RTX 4070Ti SUPER Trinity OC月白顯卡屬於OC版本,即採用出廠超頻設計,且都為單BIOS設計。
2、顯卡擁有FIRESTORM管控軟件
全新升級的索泰FireStorm管控軟件,專為RTX40系列顯卡優化打造:具有更為直觀的GPU微調界面。提供一系列的調整及監測選項,包括:顯卡核心頻率、顯存頻率、風扇轉速、風扇曲線調整、SPECTRA 2.0燈效等。操作更為簡單快捷,能夠快速上手。
三、遊戲性能
終於到了遊戲實測部分,本次採用的測試平臺配置表如下:
3DMark Fire Strike Ultra 測試
Fire Strike 是一項適用於高性能遊戲電腦和超頻系統的 DirectX 11 基準測試。即使對於最新的顯卡而言,Fire Strike 測試也非常嚴苛,而Fire Strike Ultra是其4K版本。
通過3DMark Fire Strike Ultra測試可以看到,索泰RTX 4070Ti SUPER Trinity OC月白顯卡圖形分數達到了14956分,平均溫度67℃,熱點溫度最高74℃,核心運行平均頻率為2744MHz。
為了更加直觀地表示這個結果,我使用3DMark Fire Strike Ultra 測試裡面的預估遊戲幀率來給大家展示顯卡實際性能表現。
3D MARK Time Spy Extreme測試
3D MARK專為DirectX 12設計的Time Spy Extreme, Time Spy是一個DirectX 12 基準測試,支持原生新的API 功能,如異步計算,顯式多顯卡適配器技術和多線程,而其Extreme版本則是將分辨率提升至4K。
首先咱們進行Time Spy基礎測試,可以看到索泰RTX 4070Ti SUPER Trinity OC月白顯卡圖形分數達到了23736分,平均溫度69℃,熱點溫度最高71℃,核心運行平均頻率為2722MHz。
接下來咱們進行Time Spy Extreme測試,可以看到索泰RTX 4070Ti SUPER Trinity OC月白顯卡圖形分數達到了11928分,平均溫度69℃,熱點溫度最高71℃,核心運行平均頻率為2656MHz。
為了更加直觀地表示這個結果,我使用3D MARK Time Spy Extreme測試裡面的預估遊戲幀率來給大家展示顯卡實際性能表現。
可以看到戰地5、APEX英雄、俠盜獵車手5、荒野大鏢客2、要塞英雄等遊戲在1440P最高畫質下均可以達到100+以上的幀率。
極限競速:地平線4
2K分辨率,最高畫質下,平均幀數為168.3幀,最低幀數為153.7幀。
4K分辨率,最高畫質下,平均幀數為166.6幀,最低幀數為153.4幀。
極限競速:地平線5
在2K分辨率,打開NVIDIA DLSS AI超分辨率(超高性能)、DLAA關閉、幀生成技術開啟,其餘均為最頂配置,平均幀率有111.6幀。
在4K分辨率,打開NVIDIA DLSS AI超分辨率(超高性能)、DLAA關閉、幀生成技術開啟,其餘均為最頂配置,平均幀率有117幀。
電馭叛客2077
在2K分辨率,打開NVIDIA DLSS質量(超級性能)、DLAA關閉、幀生成技術開啟,其餘均為最頂配置,平均幀率有204幀。
在4K分辨率,打開NVIDIA DLSS質量(超級性能)、DLAA關閉、幀生成技術開啟,其餘均為最頂配置,平均幀率有126幀。
古墓奇兵:暗影
在2K分辨率,打開NVIDIA DLSS(超級性能)、打開光線追蹤,最高畫質,平均幀率有292幀。
在4K分辨率,打開NVIDIA DLSS(超級性能)、打開光線追蹤,最高畫質,平均幀率有204幀。
看門狗:軍團
在2K分辨率,打開NVIDIA DLSS(性能)、打開光線追蹤,最高畫質,平均幀率有120幀。這隻有性能模式。
在4K分辨率,打開NVIDIA DLSS(超級性能)、打開光線追蹤,最高畫質,平均幀率有108幀。
極地戰嚎6
該遊戲不支持英偉達DLSS。
在2K分辨率下,最高畫質,平均幀率有186幀。。
在4K分辨率,最高畫質,平均幀率有117幀。
總的來說,在2K分辨率裡面,基本上都開啟DLSS 2,索泰RTX 4070Ti SUPER Trinity OC月白表現相當出色,大部分遊戲光靠DLSS 2就能實現高刷體驗,這點對於它非常簡單。
而在4K分辨率裡面,DLSS 3才是RTX 40系顯卡的升級重點,DLSS早就帶來了超分辨率技術,讓顯卡能夠利用AI對低分辨率的畫面超分出高分辨率的畫面,從而實現遊戲幀數的提升,現在的DLSS 3則是在DLSS 2的基礎上新增了幀生成和NVIDIA Reflex技術,幀數最高可以做到翻倍的提升!而在實際體驗中,我們也可以看到開啟DLSS 3後幾乎全部遊戲均以4K120Hz高刷新率輕鬆跑起來!
四、AIGC體驗
Stable Diffusion是一款基於人工智能的圖像生成工具,它能夠根據用戶提供的文本描述生成相應的圖像。它的生成速度極其考驗顯卡的性能。
Stable Diffusion最大的特徵,就是由於其開源的特性,可以在電腦本地上離線運行,生成速度快,且對硬件要求相對較低。這是AI繪畫第一次能在可以在消費級顯卡上運行,任何人都可以下載模型並生成自己的圖像。另外,相比較於midjourney等封閉系統的AI繪圖軟件,Stable Diffusion強大的自由度(自定義、個性化)也受到很多業內人士的追捧。
下載安裝包我選擇的是秋葉大神開發的Stable Diffusion整合包,只需要把整合包下載到電腦上,就可以一鍵安裝了。
解壓完文件,點擊繪世啟動器,接下來就可以全自動安裝了。安裝過程中,需要先安裝啟動器所需要的環境,整個過程大概只需要幾分鐘即可完成。
安裝完成之後,可以把繪世啟動器發送到桌面快捷方式,這樣下次直接點擊快捷方式就可以一鍵啟動Stable Diffusion了。
注意的是,如果有安裝老版本的Stable Diffusion,可以選擇版本管理,可以一鍵更新到最新版本。
點擊一鍵啟動,會自動在瀏覽器當中打開一個網頁版的UI頁面。這個頁面就是我們的操作檯了,接下來就可以在裡面愉快地進行AI繪畫了。
秋葉大神的整合包裡包含了anyting-V5模型在內的幾個基本的模型,但是沒有最新的SDXL模型,因此我單獨下載了SDXL模型,只需要存儲到整合包文件夾的 models/Stable-diffusion
目錄內,重新啟動即可一鍵加載。
首先我們在拓展裡面添加一個"Ranting8323 / sd-extension-system-info"的工具,該工具可以對顯卡的AI性能進行基準測試。
其中14.52it/s、21.47it/s、22.52it/s就是索泰RTX 4070Ti SUPER Trinity OC月白這個顯卡AI性能的得分,這個得分十分好。
另外,我們還可以去在線結果中查看別人的顯卡AI得分,可以看到其他人同樣的4090得分,也只有25.61it/s。
另外在去年年底的時候,也有玩家統計過各個顯卡AI性能得分,僅供參考。從上圖表來看,4070TiS的顯卡AI性能已經超過了4080水準。
還值得一提的是,TensorRT,它可以對stable diffusion進行推理加速。
2023年10月18日Nvidia終於推出了官方的TensorRT插件Stable-Difusion-WebUl-TensorRT,該插件可以直接在 webui的 extension 中安裝即可,默認支持cuda11.x。
TensorRT是可以在NVIDIA各種GPU硬件平臺下運行的一個C++推理框架。我們利用Pytorch、TF或者其他框架訓練好的模型,可以轉化為TensorRT的格式,然後利用TensorRT推理引擎去運行我們這個模型,從而提升這個模型在英偉達GPU上運行的速度。速度提升的比例是比較可觀的。
環境配置要求
要使用Stable-Difusion-WebUl-TensorRT插件加速,有幾個重要的前提條件,GPU必須是NVIDIA的(俗稱N卡),GPU的顯存必須在8G以上,包含8G,GPU驅動版本大於等於537.58,如果電腦沒有別的深度學習模型要訓練,建議驅動更新到最新的版本。物理內存大於等於16G。
支持Stable-Diffusion1.5.2.1.SDXL,SDXL Turbo和 LCM,對幹 SDXL和 SDXL Turbo,官方推薦使用具有12GB 或更多 VRAM 的GPU,以獲得最佳性能。
操作步驟:
1、首先進入Stable-Difusion-WebUl-TensorRT插件的github頁面,複製項目地址。
2、接下來啟動WEBUI,無論你是通過 Github 安裝還是秋葉安裝,都會有extensions插件的標籤,進入打開Extensions插件或者“拓展”選項,打開從網址安裝,黏貼剛才的項目地址。
3、安裝完成後點擊應用更改並重啟即可。
4、再次打開頁面後就可以看到WebUI裡會多了一個TensorRT 的頁面。
5、如何使用?
首先咱們需要知道這個原理。
第一步,我們首先需要使用底模構建 TensorRT 模型,構建的過程是 TensorRT 的插件會自動的由底模輸出 ONNX 模型,並構建一個以trt為後綴的 UNet 優化模型,在得到這個模型之後 我們就可以使用這個trt優化的 UNet 模型進行推理加速了。
而對於 LORA而言,則需要將使用的 LORA 模型也進行 TensorRT 模型的構建,再通過正常的 LORA的使用方法 TensorRT 的插件會自動將 LORA的 TensorRT 優化模型與底模的 UNet TensorRT 優化模型進行融合,來完成底模加上 LORA 的加速。
6、接下來選擇想要導出的底模,你可以選擇任意支持的底模,接下來我們打開 Preset 下拉框,這裡會提供多個 Stable Diffusion 模型的預設推理參數,自己選擇好就好。
7、接著前往設置→用戶界面→快捷設置列表,添加 sd _unet→ 保存設置→ 重載 UI。
8、完成後WEBUI會多一個SD Unet的設置項。在這裡可以選擇使用TRT加速。
實際測試:
未啟用 TensorRT加速之前,生成20批次,單批數量為1的圖片,總耗時為39.5秒。
啟用 TensorRT加速之後,生成20批次,單批數量為1的圖片,總耗時為24秒。
不得不說,英偉達TensorRT加速實際效果達到了65%,可以說是非常強大,另外根據模型庫不同以及參數設置差異,據說有的人可以到350%加速效果。
總結
整體而言,索泰RTX 4070Ti SUPER Trinity OC月白顯卡在使用的過程中給我極大的驚喜,它就像是一個全能選手,無論是顏值、遊戲、辦公還是AI繪圖性能都超出了我的期待。這個產品可以說上我的年度最佳推薦列表,不論何時都值得我推薦給身邊好友。