遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)


3樓貓 發佈時間:2025-01-28 22:13:52 作者:愛極物 Language

 

隨著AI展現出愈發強大的性能,以及摩爾定律走向式微,用AI算力來代替傳統的硬件堆疊悄然成為業界共識,並快速滲透到遊戲、創意內容、工程與設計中,AI帶來的便利性很快受到了各方認可。

 

而NVIDIA對於前沿用戶的潛在需求是非常敏銳的,在Hopper和Ada Lovelace微架構之後,NVIDIA在2024年3月18日的GTC 2024主題演講中正式公佈了Blackwell架構,並在CES 2025上將其帶入消費級產品線,GeForce RTX 50系列GPU應運而生。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第0張

 

Blackwell微架構命名源自於統計學家和數學家David H. Blackwell,以紀念他在博弈論、概率論、信息論和統計學領域做出的重大貢獻。有意思的是,這些領域也直接或者間接推動了基於Transformer模型的生成式AI模型設計和算法訓練,從而也奠定了NVIDIA Blackwell GPU中DLSS Transformers的基礎,形成了奇妙的閉環。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第1張

統計學家和數學家David H. Blackwell

 

NVIDIA Blackwell在工藝進程節點上變化不算太大,採用了臺積電定製的4NP節點製造,相當於Hopper和Ada Lovelace的4N工藝節點的加強版,在原有的基礎上添加一定的金屬層,從而獲得更高的效率。因此基於Blackwell架構的完整GB100芯片擁有1040億個晶體管,相比Hopper GH100 GPU的800億個晶體管數量,增加了30%。

 

消費端頂配的GeForce RTX 5090和GeForce RTX 5090 D使用的是GB202芯片,擁有922億個晶體管,芯片面積Die Size達到750mm2,比GeForce RTX 4090的AD102大20%。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第2張

 

很顯然,這塊型號名為GB202的Blackwell架構GPU在未來一段時間直接代表著消費端發燒友、遊戲玩家最高的體驗水準,它的設計基於什麼樣的理念出發,如何在成本可控的範圍內顯著的提升效率,玩家是如何從中獲得畫質、流暢度體驗,都是本篇內容嘗試探討的問題。

 

在CES 2025期間,筆者有幸參加了GeForce RTX 5090為主題的NVIDIA Editors Day,挖掘Blackwell GPU背後的諸多細節。按照慣例,如果趕時間,可以完成第一章節閱讀即可,或者參考前段時間筆者撰寫的《NVIDIA Blackwell GPU技術淺析:AI正在迴歸GeForce》,都可以幫助你在短時間內快速瞭解Blackwell。而如果想深入瞭解這塊GPU,則不妨跟本文一起,走馬觀花的瞭解一些技術相關更有意思的細節。同時由於小黑盒有30000字數限制,本篇內容分為上下兩篇發佈,此篇為上篇。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第3張

 

Blackwell概覽:用AI撬動AI

 

從整體上來看,NVIDIA Blackwell GPU目標是通過AI神經渲染和神經著色技術在遊戲和應用中獲得更高效率,包括生成式AI渲染和實時應用,其中包括DLSS超分辨率(DLSS Super Resolution)和幀生成(Frame Generation)的性能顯著提升,以更低的運算成本獲得與原畫質相當,甚至更好的圖像質量。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第4張

 

另外DLSS光線重建(DLSS Ray Reconstruction, RR)也通過AI的方式降噪和重建缺失的細節,大幅度減少生成高質量光線追蹤、路徑追蹤場景所需的光線數量。這一套基於AI的組合拳持續的降低計算成本和內存佔用,從而釋放GPU性能,進一步獲得更高的幀率和更好的畫質。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第5張

 

因此Blackwell GPU設計目標有四個,分別是:

 

針對新的伸進工作負載進行優化

儘可能減少顯存佔用量

提升畫質

提升效能

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第6張

 

圍繞這四個設計目標,進一步擴展出NVIDIA Blackwell GPU架構的關鍵特性,分別是:

 

針對神經著色打造的流式多處理器(Streaming Multiprocessor, SM):Blackwell使用了新的RT Core和Tensor Core設計,進一步增強了神經渲染能力。相比於上一代的Ada Lovelace,NVIDIA RTX Blackwell SM在每個時鐘週期內提供了翻倍的整數運算吞吐量,從而有助於提升神經著色至關重要的地址生成工作負載。

 

更高效的Max-Q:RTX Blackwell集成了許多新的Max-Q特性電源管理特性,在需要時,可以通過電源門控技術關閉一部分硬件模塊。同時,不同硬件模塊會被分配到不同的電源軌上,以避免不必要的浪費,從而實現精確的能效控制。順帶一提,新版的Max-Q也能可以更細節的調整時鐘頻率。

 

第四代RT Core:Blackwell RT Core架構再次進行了調整,能夠更高效的提供光線追蹤效果,以及更好的支持神經渲染技術。

 

第五代Tensor Core:首次引入對FP4浮點運算支持,作為更低位的浮點運算格式,可以更好的滿足現階段AI應用加速和遊戲中AI渲染的需求,並能使AI吞吐量翻倍,內存需求減半。另外,這一代Tensor Core還保留了數據中心版本Blackwell GPU的第二代FP8 Transformer Engine。

 

NVIDIA DLSS 4:這項技術在未來一段時間將成為提升遊戲流暢度和體驗的重要技術,在RTX Blackwell架構下引入了AI多幀生成技術,DLSS 4幀率比DLSS 3和DLSS 3.5提升了2倍之多,並且畫質會更好,系統延遲更低。

 

RTX神經著色器(RTX Neural Shaders):首次將小型神經網絡引入可編程著色器中。

 

AI計算管理器(AI Management Processor, AMP):讓多個AI模型可以和GPU圖形工作負載時候共享對應的資源。這項功能已經與微軟展開合作,實現了對Cooperative Vectors的支持,從而衍生出後面會被經常提到的神經渲染(Neural Rendering)渲染技術,從而實現細節更豐富的場景、複雜的光線追蹤效果。另外,筆者認為AMP可能也是控制GeForce RTX 5090 D的AI性能表現的關鍵。

 

GDDR7顯存:GDDR7是最新的超低壓GDDR內存標準,通過PAM3脈衝幅度調製信號技術實現,相比GDDR6X的PAM4更節能,並且抗噪能力更好,對應的電路設計也更為簡單一些。顯然GDDR7由PAM4迴歸PAM3是綜合了性能和成本的考慮。對於大部分用戶而言,只需要知道最終產品顯存容量更大就可以了。

 

Mega Geometry技術:這是一項新的RTX技術,旨在大幅提升光線追蹤應用中的幾何細節。

 

目前為止,首發採用RTX Blackwell GPU的產品包括GeForce RTX 5090,GeForce RTX 5090 D,GeForce RTX 5080,GeForce RTX 5070 Ti 和 GeForce RTX 5070。其中GeForce RTX 5090和GeForce RTX 5090 D的核心信號是GB202,GeForce RTX 5080和GeForce RTX 5070 Ti核心是GB203,GeForce RTX 5070是GB205。

 

接下來我們將會對RTX Blackwell中的技術細節進行淺析。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第7張

 

最強遊戲芯片:Blackwell GB202 GPU

 

按照NVIDIA慣例,每一個新的GPU微架構都需要確定明確的設計目標,Turing架構時引入RT Core、Tensor Core,Ampere架構升級SM,增強RT Core和Tensor Core,以及Ada Lovelace增強光線追蹤性能和AI神經圖形的質量,並追加了DLSS幀生成和光線重建功能,成為光線追蹤和神經圖形進入主流的轉折點。

 

Turing架構推出之後,能夠看到,現在每幀遊戲所需的AI TPOS算力隨著每一代GPU架構升級呈現出幾何級增長的趨勢。這讓GPU在圖形質量和性能上的表現超越了摩爾定律,以一種全新的方式增長。比如DLSS光線重建(DLSS Ray Reconstruction, DLSS RR)能夠大幅度減少所需要發射和著色的光線數量,讓路徑追蹤實現逼真的光照成為可能。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第8張

每幀的AI TOPS正在逐年大幅提升

 

Blackwell首次引入了DLSS 4並具備多幀生成技術,除了提升遊戲性能和降低系統延遲,新技術還帶來了新的神經渲染技術,包括RTX 神經材質(RTX Neural Materials),RTX神經面部(RTX Neural Faces),RTX神經輻射緩存(RTX Neural Radiance Cache, NRC),以及基於AI的Transformer模型來獲得高質量的圖像生成。

 

在消費端提供這些技術的硬件基礎的Blackwell GB202 GPU。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第9張

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第10張

 

完整的GB202 GPU包括12個GPC(Graphics Processing Clusters,圖形處理集群),96個TPC(Texture Processing Clusters,紋理處理集群),192個SM(Streaming Multiprocessors,流式多處理器),以及1個512-bit內存接口,配備有16個32-bit內存控制器,用於對顯存進行控制。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第11張

 

值得注意,GB202 GPU還包含了384個FP64核心,即每SM包含兩個,FP64 TFLOP速率是FP32 TFLOP速率的1/64,對於消費端而言使用頻率不高,但可以保證FP64代碼可以被正確的執行。對應的,Tensor Core也包含了少量的FP64 Tensor來確保程序的正確執行。

 

GPC(Graphics Processing Clusters,圖形處理集群)是所有Blackwell GB20x GPU最主要運算單位,每個關鍵圖形處理單元都會擺放在GPC中,每個GPC包括一個專用的光柵引擎(Raster Engine),2組ROP集群(Raster Operations,光柵操作),每個光柵操作分區包括8個獨立的ROP單元,8個TPC(Texture Processing Clusters,紋理處理集群),每個TPC包含1個PolyMorph引擎和2個SM(Streaming Multiprocessors,流式多處理器)。

 

其中PolyMorph引擎主要用於處理圖形和計算任務中的幾何變換和曲面細分,在處理複雜幾何圖形的時候,可以獲得更高效的多任務能力。

 

完整的GB202 GPU還包含了128MB L2緩存,GeForce RTX 5090則包含96MB L2緩存,所有的應用在大容量高速緩存中都能受益,特別是光線追蹤和路徑追蹤這樣的複雜操作。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第12張

 

因此,完整的GB202 GPU包括:

 

24576 個CUDA Core

192個第四代 RT Core

768個第五代Tensor Core

768個紋理單元(Texture Units)

 

需要注意,GeForce RTX 5090也並非使用完整的GB202核心,而是做了一定程度刪減。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第13張

 

SM(Streaming Multiprocessors,流式多處理器)是NVIDIA GPU架構中的核心部件,也是GPU可以完成大規模並行任務的關鍵,比如CUDA Core,Tensor Core,RT Core都包含其中。完整的GB202包括192個SM,每個SM包括128個CUDA Core,1個第四代RT Core,4個第五代Tensor Core,4個紋理單元(Texture Units),1個512KB寄存器文件,128KB L1共享緩存,這些緩存可以根據圖形和計算工作負載需求進行重新配置。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第14張

 

Blackwell架構下,INT32整數運算相比Ada Lovelace是翻倍的。原因是INT32和FP32核心進行了完全統一,這也體現了Blackwell SM針對神經網絡著色器設計和優化。當然,這也意味著在同一個時鐘週期內,只能進行FP32或者INT32其中一個操作。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第15張

 

GeForce RTX 5090的紋理單元(Texture Units)又GeForce RTX 4090的512個增加到了680個。紋理單元負責處理紋理映射操作,包括從紋理中獲取紋理元素(Texels),應用紋理過濾以及紋理座標處理等等。其中紋理元素(Texels)代表紋理信息、顏色、圖案,這些信息被應用於3D表面,定義了物體表面紋理外觀。

 

由於紋理單元增加,GeForce RTX 5090雙線性過濾紋理元素處理速率達到了1636.76 Gigatexels/sec,對比GeForce RTX 4090的1290.2 Gigatexels/sec提升了26%。另外RTX Blackwell SM 相比Ada Lovelace SM在每個週期處理點採樣紋理的性能也翻倍了,紋理訪問的算法也會得到對應的加速。

 

GDDR7內存子系統

 

NVIDIA GPU在行業內不可動搖的影響力也直接推動了顯存的發展。現在顯存架構、電路設計和信號傳輸都已經圍繞GPU內存速度展開匹配。比如Ampere GPU推動了GDDR6X的實裝,GeForce RTX 4090更是把GDDR6X的峰值帶寬提升到了1TB/s。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第16張

 

GeForce RTX 5090上的GDDR7是全新的超低電壓GDDR內存標準,使用了3個電平的脈衝幅度調製PAM3,這是由NVIDIA與JEDEC技術協會,以及360多家成員公司共同推動的。

 

由GDDR6X PAM4轉向GDDR7 PAM,且結合新的引腳編碼方案,可以讓GDDR7信噪比顯著提升,並且可以讓獨立通道數量翻倍,可以更大程度減少I/O密度開銷。通過改進PAM3信噪比,以及均衡方案,重新設計時鐘架構,PAM3讓GDDR7獲得了顯著的帶寬提升。與此同時,GeForce RTX 50系列還支持增強型CRC(循環冗餘檢驗)和RAS(可靠性、可靠性、可維護性)要求。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第17張

 

GeForce RTX 5090配備了28Gbps GDDR7顯存,提供1.792TB/s峰值內存帶寬。同時,GeForce RTX 5080提供了30Gbps GDDR7顯存,提供960GB/s峰值內存帶寬。其中主要原因是GeForce RTX 5080的顯存是16GB。

 

第五代Tensor Core:引入FP4

 

Tensor Core中門用於矩陣乘法累加數學運算而設計,乘法累加器被廣泛引用於AI和HPC領域。Blackwell Tensor Core支持FP16、BF16、TF32、INT8、INT4和Hopper FP8 Transformer引擎,同時還新增了對FP4和FP6 Tensor,以及第二代FP8 Transformer引擎,與數據中心級Blackwell GPU相似。

 

其中重點就是引入了對FP4支持。自從2022年生成式AI模型首次發佈以來,隨著模型能力的不斷增加,對計算和內存需求有了更高的要求,如果按照原來的硬件運行方式,是難以應對這些新增的需求的。這時候從硬件層面引入對FP4數據格式支持,則可以很好的解決這個問題。原因是FP4提供了一種較低的量化方式,類似於文件壓縮,能夠減少模型的大小。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第18張

 

相對大多數模型默認使用的FP16精度相比,FP4所需的內存是FP16的不到一半,並且GeForce RTX 50系列可以提供相比上一代2倍以上的性能,FP4可以通過NVIDIA TensorRT模型優化器的量化方式,確保質量不會有太多損失。

 

這裡NVIDIA官方給出了一個例子,Black Forest Labs的FLUX.dev模型在FP16精度下需要超過23GB的顯存,但在使用FP4之後,只需要不到10GB顯存就能運行,原本需要頂配GeForce RTX GPU才能運行的模型,現在主流RTX GPU也可以運行了。

 

在生成效率上,GeForce RTX 4090(FP16)FLUX.dev模型生成圖像需要15秒,而同樣的圖像質量GeForce RTX 5090(FP4)只需要5秒出頭。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第19張

 

第四代RT Core:2倍吞吐量提升

 

第四代RT Core做出了很多重要改進。在Turing、Ampere和Ada Lovelace架構的GPU中,RT Core包含專用的硬件單元,用於層次包圍盒加速算法(Bounding Volume Hierarchies,BVH)數據結構遍歷,並執行光線與三角形相交,光線與包圍盒相交測試計算。它的執行效率更高,也幫助SM從光線追蹤的運算中釋放出來,專注於像素、頂點、著色的計算任務。

 

其中光線與三角形相交測試是一項計算密集型操作,RT Core承擔著層次包圍盒加速算法(Bounding Volume Hierarchies,BVH)數據結構遍歷、執行射線/三角形和光線邊界框求交計算,也是實時光線追蹤在遊戲和專業應用實裝以來,負載最高的引擎。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第20張

 

Blackwell架構第四代RT Core提供了比Ada Lovelace架構再度高出2倍的光線與三角形相交測試吞吐量。包圍盒碰撞由包圍盒碰撞引擎(Box Intersection Engine)完成,射線/三角形求交測試。

 

與Ada Lovelace一樣,第四代RT Core中包含專用的Opacity MicroMaps引擎,這套引擎主要是用來加速不透明度微圖的處理,由於可以直接對幾何體進行Alpha測試判斷物體表面是否可見或者透明,進而減少GPU著色器的計算需求。

 

另外第四代RT Core還包括一個三角形簇相交引擎(Triangle Cluster Intersection Engine),為全新的Mega Geometry技術加速三角形簇級結構的光線追蹤,同時也兼顧常規的光線與三角形相交測試。Mega Geometry技術旨在光線追蹤應用中大幅提升幾何細節,也是我們後續描述的重點。

 

另外線性掃掠球(Linear Swept Spheres)也是此次第四代RT Core增加的硬件結構,用於給頭髮這樣的精細幾何體增加光線追蹤特效。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第21張

 

Mega Geometry:讓細節直逼電影級

 

在虛幻引擎5這樣的新一代遊戲引擎中,海量的幾何細節構建出了一個更為細緻的虛擬世界,其中就會利用到細節層次(系統level-of-detail, LOD)以全保真度進行光線追蹤幾何體,而不再是進行光線追蹤時,通過低分辨率的代理模型實現。這時候陰影、反射、間接照明質量都會向上提升一個層次。如果按照以往常規光線追蹤方式,這些功能都是難以在實時運行的狀態下實現的,Mega Geometry技術的引入就變得很有必要。換而言之,Mega Geometry的主要目標之一是讓光線追蹤與現代遊戲引擎的細節層次系統無縫結合。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第22張

 

LOD在3D遊戲和3D應用中已經被普遍使用。因為在複雜的遊戲世界中,不可能一步到位完成所有模型的3D渲染計算,開發者會根據物體與觀察者視距的距離,給物體提供不同精度和細節的模型,並根據攝像機的移動進行動態切換,簡單的說就是近距離模型幾何形狀精度高,紋理細緻;遠距離物體幾何多邊形數目少,分辨率低,從而節省內存佔用並提高性能。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第23張

 

但LOD並不是完美的,特別是結合RTX API擴展之後,遇到了兩個問題。

 

第一個問題是,光線追蹤效果導致的LOD效率低下。我們現在知道LOD通過判斷攝像機與物體的細節來動態調整模型的精細度的,傳統的方法會預先計算出少量的網格,代表給定物體不同的LOD級別。

 

在虛幻引擎5的Nanite系統中,為了增加場景的細節度,會使用大約128個三角形集群來動態刷新LOD級別,從而做到複雜場景下的平滑過渡。當引入光線追蹤後,網格內必須構建一個獨立的數據結構,即層次包圍盒(Bounding Volume Hierarchies,BVH)。在每一幀中,虛幻引擎5 Nanite會對大量多邊形物體進行大量的BVH構建操作,從而導致光線追蹤實時運算過載。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第24張

 

Mega Geometry為構建BVH提供了一種新的算法,它將三角形集群作為基礎元素,構建出新的聚類加速結構(Cluster-level Acceleration Structures,CLAS),新結構可以按需生成,並最多可以生成256個三角形批次,然後CLAS集合再被用作輸入構建BVH。由於每個CLAS代表大約100個三角形集合,依照VLAS構建的BVH的處理量減少了兩個數量級,從而允許遊戲引擎在每一幀遊戲畫面中,可以擁有更多的預算進行更多的BVH構建。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第25張

 

重點是,Mega Geometry不需要過多幹預,API使用的是批處理的形式,輸入參數來自顯存,以便遊戲引擎能夠高效的在GPU上執行LOD選擇、剔除等邏輯操作,如果使用得當,Mega Geometry也可以進一步消除與BVH相關的CPU開銷。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第26張

頂層/底層加速結構(TLAS/BLAS)和集群BLAS

 

第二個問題是應對更多的物體數量。4K或者更高分辨率的推動下,遊戲也被要求添加更多的場景物體數量,按照以往的做法,遊戲中每一幀都要給場景中所有物體構建一個TLAS(Top -Level Acceleration Structures,頂層加速結構),如果物體數量只有幾千個,這種形式運作問題不大,可一旦遇到宏大的遊戲世界規模,成本就會變得非常高昂。

 

為了解決這個問題,Mega Geometry引入一個分區頂層加速結構(Partitioned

Top-Level Acceleration Structure,PTLAS),與每幀從頭開始構建新的TLAS不同,PTLAS能夠利用場景中大多數物體在不同幀中保持靜態的情況,將物體集中到一個分區中,僅更新發生變化的物體,讓計算資源只關注發生變化的分區,運行資源節省自然變大。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第27張

NVIDIA Zorah DEMO中就使用了Mega Geometry技術

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第28張

Mega Geometry中的分區頂層加速結構(PartitionedTop-Level Acceleration Structure,PTLAS)

 

細分曲面

 

Mega Geometry的主要目標之一是讓光線追蹤與現代遊戲引擎的細節層次系統無縫結合,但應用範圍也不限於如此。由於可以靈活的基於GPU完成聚類生成、快速構建BVH,更多高階的幾何技術也可以付諸實踐,包括細分曲面。

 

細分曲面是一種集合表現方式,在電影和生產渲染工作流程中使用較為普遍。例如在1978年被提出的經典Catmull-Clark細分規則對於四邊形網絡迭代細化,通過位移貼圖,獲得平滑的渲染表面,使得粗糙的多邊形網格細化成光滑的曲面。

 

細分曲面的光線追蹤通過三角化的方式實現,對於動畫或者視點變化,每一幀如果都需要重新創建新的細分曲面,會產生大量的BVH需求降低效率。Mega Geometry可以將細分曲面過程直接映射到聚類生成上,從生成的CLAS中快速構建BVH,從而獲得更快的實時性能。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第29張

 

Mega Geometry API與架構支持

 

Mega Geometry作光線追蹤的基礎核心技術,將BVH功能提升到一個新的層次,它賦予了遊戲和應用更高效的集合管線開發,因此在API和硬件也已經獲得對應的支持:

 

API:Mega Geometry可以應用在所有NVIDIA光線追蹤API中:

 

透過NVAPI擴展,DirectX 12 (DXR) 可支持聚類和 PTLAS

Vulkan通過第三方添加了針對聚類和PTLAS的支持

OptiX 9.0添加了對聚類的原生支持

 

GPU架構:Mega Geometry支持從Turing架構開始的所有RTX GPU。

 

Blackwell RT Core也對Mega Geometry提供了原生支持。更確切的說,第四代RT Core是專門針對Mega Geometry設計的,硬件中特殊的聚類引擎實現了新的幾何體與BVH數據壓縮方案,同時提供了比第三代RT Core高出2倍的光線-三角形相交速率,這讓Blackwell在同樣的場景中顯存的佔用可以更少。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第30張

 

線性掃掠球體(Linear Swept Spheres,LSS):讓頭髮光追更絲滑

 

這項技術主要用於解決頭髮效果的毛糙感和效率。現在用於描繪頭髮、草地或者其他類似條狀物的曲線渲染在搭配光線追蹤時,通常需要在軟件層面通過自定義相交著色器實現。然而,光線與曲面相交測試的密集計算,會延長渲染器的渲染時間,導致曲線的實時光線追蹤很難在實際中使用。

 

為了節省計算成本,以往製作團隊會尋找一種簡單的方式來實現近似毛髮的效果,不相交正交三角形條帶(Disjoint Orthogonal Triangle Strips,DOTS)便是其中之一。它使用一組由三角形條帶組成的網格,這些條帶呈網格狀的、不相交的模式排列,其中的三角形條帶相互獨立且不共享頂點。雖然這種方法的質量高於卡片方法,但不相交的排列方式會產生邊緣偽影,導致渲染中出現明顯的缺陷。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第31張

不相交正交三角形條帶(Disjoint Orthogonal Triangle Strips,DOTS)

 

在Blackwell RT Core中首次引入了硬件光線相交測試的支持,從而推出了線性掃掠球體(Linear Swept Spheres,LSS)。LSS類似於條帶的細分曲面,但它是通過空間中線線性斷的方式掃描球體構建,每一段起始點和終點之間,球體半徑可以不同,以支持不同靈活程度的髮絲。對應的,LSS在Blackwell中還直接支持球體掃描,對於粒子系統而言非常有用。

 

英偉達表示,在頭髮渲染中,LSS的速度比傳統DOTS快2倍,同時幾何體佔用的顯存空間也縮減了5倍。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第32張

線性掃掠球體(Linear Swept Spheres,LSS)

 

著色器執行重新排序2.0(Shader Execution Reordering 2.0,SER 2.0):更高效的亂序執行

 

著色器執行重新排序SER是一項厲害的技術,它允許光線追蹤應用可以高效地重新組織在GPU上的大規模並行線程,類似於CPU上的亂序執行,最大化的提升硬件利用率。通過SER動態重新排列工作負載,對於需要頻繁執行或者內存訪問分歧的光線追蹤工作非常有效,比如路徑追蹤從著色器執行重新排序中就能獲得大量收益。同時,由於可以將執行神經網絡工作負載的現成直接發送給Tensor Core,因此SER還能夠顯著加速神經網絡著色。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第33張

著色器執行重新排序(SER)

 

在Blackwell上,SER從硬件和軟件層面都獲得增強,SER核心重新排列邏輯效果提升了兩倍,減少了重新排列的開銷並提升了精度。更高的精度帶來了更智能的連貫性提取,讓開發者能夠提供更多特定引用的知識來進行重排操作。

 

SER通過一個小型API控制,並且還引入了光線追蹤著色器調用的靈活性,增強了編程模型,使得在重排的同時,也能夠進一步簡化渲染器的構建,特別是已經在Ada Lovelace上支持SER的工具包而言,Blackwell上的SER 2.0可以無縫使用,不需要任何代碼更改。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第34張

 

AI計算管理器(AI Management Processor, AMP):讓GPU自己管自己

 

AI計算管理器(AI Management Processor, AMP)是一個可完全編程的上下文調度器,位於GPU之上,旨在幫助GPU在上下文調度任務中剝離出來。AMP增強了Windows管理GPU工作負載的能力。

 

GPU上下文管理包含了GPU執行一個或者多個任務所需的狀態信息,當多個任務進行時,可以使用多個上下文管理來實現更好的任務隔離,並且確保多個應用程序能夠同時共享GPU而不會發生衝突。比如遊戲中的AI NPC的調動行為,會通過NVIDIA Avatar Cloud Engine(ACE)實現語音、翻譯、視覺、動畫、行為等模型的同步運行,模型的運行與遊戲是同步的,但相互之間不會被幹擾。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第35張

 

AMP通過一個位於GPU管線前端的RISC-V處理器實現,它能提供比以往以來CPU更快的方式實現上下文調度,並且延遲更低。Blackwell AMP調度架構與微軟的架構模型匹配,通過Windows硬件加速GPU調度在GPU上配置的方式,讓Windows可以更高效的管理GPU的顯存,減少延遲,並提升遊戲和其他圖形計算引用的性能。

 

AMP在其中扮演的角色是接管CPU調度GPU的工作,從而減少對系統CPU的以來。事實上,GPU管理自己可以減少GPU與CPU之間的通訊次數,對降低系統延遲也提供很好的幫助。

 

遊戲算力天花板,GeForce RTX 5090 Blackwell GPU架構淺析(上)-第36張

AI計算管理器(AI Management Processor, AMP)調度AI與圖形的工作負載流程

 

本質上,AMP的作用是協調和調度,以確保更流暢的遊戲體驗,避免性能下降。在大語言模型LLMs應用中,AMP通過減少首次使用的響應時間就能很好的證明這一點。在遊戲領域,AMP也可以通過優先調度遊戲引擎工作,防止遊戲卡頓。

 


© 2022 3樓貓 下載APP 站點地圖 廣告合作:asmrly666@gmail.com