游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-3楼猫

随着AI展现出愈发强大的性能，以及摩尔定律走向式微，用AI算力来代替传统的硬件堆叠悄然成为业界共识，并快速渗透到游戏、创意内容、工程与设计中，AI带来的便利性很快受到了各方认可。

而NVIDIA对于前沿用户的潜在需求是非常敏锐的，在Hopper和Ada Lovelace微架构之后，NVIDIA在2024年3月18日的GTC 2024主题演讲中正式公布了Blackwell架构，并在CES 2025上将其带入消费级产品线，GeForce RTX 50系列GPU应运而生。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第0张

Blackwell微架构命名源自于统计学家和数学家David H. Blackwell，以纪念他在博弈论、概率论、信息论和统计学领域做出的重大贡献。有意思的是，这些领域也直接或者间接推动了基于Transformer模型的生成式AI模型设计和算法训练，从而也奠定了NVIDIA Blackwell GPU中DLSS Transformers的基础，形成了奇妙的闭环。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第1张

统计学家和数学家David H. Blackwell

NVIDIA Blackwell在工艺进程节点上变化不算太大，采用了台积电定制的4NP节点制造，相当于Hopper和Ada Lovelace的4N工艺节点的加强版，在原有的基础上添加一定的金属层，从而获得更高的效率。因此基于Blackwell架构的完整GB100芯片拥有1040亿个晶体管，相比Hopper GH100 GPU的800亿个晶体管数量，增加了30%。

消费端顶配的GeForce RTX 5090和GeForce RTX 5090 D使用的是GB202芯片，拥有922亿个晶体管，芯片面积Die Size达到750mm2，比GeForce RTX 4090的AD102大20%。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第2张

很显然，这块型号名为GB202的Blackwell架构GPU在未来一段时间直接代表着消费端发烧友、游戏玩家最高的体验水准，它的设计基于什么样的理念出发，如何在成本可控的范围内显著的提升效率，玩家是如何从中获得画质、流畅度体验，都是本篇内容尝试探讨的问题。

在CES 2025期间，笔者有幸参加了GeForce RTX 5090为主题的NVIDIA Editors Day，挖掘Blackwell GPU背后的诸多细节。按照惯例，如果赶时间，可以完成第一章节阅读即可，或者参考前段时间笔者撰写的《NVIDIA Blackwell GPU技术浅析：AI正在回归GeForce》，都可以帮助你在短时间内快速了解Blackwell。而如果想深入了解这块GPU，则不妨跟本文一起，走马观花的了解一些技术相关更有意思的细节。同时由于小黑盒有30000字数限制，本篇内容分为上下两篇发布，此篇为上篇。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第3张

Blackwell概览：用AI撬动AI

从整体上来看，NVIDIA Blackwell GPU目标是通过AI神经渲染和神经着色技术在游戏和应用中获得更高效率，包括生成式AI渲染和实时应用，其中包括DLSS超分辨率（DLSS Super Resolution）和帧生成（Frame Generation）的性能显著提升，以更低的运算成本获得与原画质相当，甚至更好的图像质量。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第4张

另外DLSS光线重建（DLSS Ray Reconstruction, RR）也通过AI的方式降噪和重建缺失的细节，大幅度减少生成高质量光线追踪、路径追踪场景所需的光线数量。这一套基于AI的组合拳持续的降低计算成本和内存占用，从而释放GPU性能，进一步获得更高的帧率和更好的画质。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第5张

因此Blackwell GPU设计目标有四个，分别是：

针对新的伸进工作负载进行优化
尽可能减少显存占用量
提升画质
提升效能

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第6张

围绕这四个设计目标，进一步扩展出NVIDIA Blackwell GPU架构的关键特性，分别是：

针对神经着色打造的流式多处理器（Streaming Multiprocessor, SM）：Blackwell使用了新的RT Core和Tensor Core设计，进一步增强了神经渲染能力。相比于上一代的Ada Lovelace，NVIDIA RTX Blackwell SM在每个时钟周期内提供了翻倍的整数运算吞吐量，从而有助于提升神经着色至关重要的地址生成工作负载。

更高效的Max-Q：RTX Blackwell集成了许多新的Max-Q特性电源管理特性，在需要时，可以通过电源门控技术关闭一部分硬件模块。同时，不同硬件模块会被分配到不同的电源轨上，以避免不必要的浪费，从而实现精确的能效控制。顺带一提，新版的Max-Q也能可以更细节的调整时钟频率。

第四代RT Core：Blackwell RT Core架构再次进行了调整，能够更高效的提供光线追踪效果，以及更好的支持神经渲染技术。

第五代Tensor Core：首次引入对FP4浮点运算支持，作为更低位的浮点运算格式，可以更好的满足现阶段AI应用加速和游戏中AI渲染的需求，并能使AI吞吐量翻倍，内存需求减半。另外，这一代Tensor Core还保留了数据中心版本Blackwell GPU的第二代FP8 Transformer Engine。

NVIDIA DLSS 4：这项技术在未来一段时间将成为提升游戏流畅度和体验的重要技术，在RTX Blackwell架构下引入了AI多帧生成技术，DLSS 4帧率比DLSS 3和DLSS 3.5提升了2倍之多，并且画质会更好，系统延迟更低。

RTX神经着色器（RTX Neural Shaders）：首次将小型神经网络引入可编程着色器中。

AI计算管理器（AI Management Processor, AMP）：让多个AI模型可以和GPU图形工作负载时候共享对应的资源。这项功能已经与微软展开合作，实现了对Cooperative Vectors的支持，从而衍生出后面会被经常提到的神经渲染（Neural Rendering）渲染技术，从而实现细节更丰富的场景、复杂的光线追踪效果。另外，笔者认为AMP可能也是控制GeForce RTX 5090 D的AI性能表现的关键。

GDDR7显存：GDDR7是最新的超低压GDDR内存标准，通过PAM3脉冲幅度调制信号技术实现，相比GDDR6X的PAM4更节能，并且抗噪能力更好，对应的电路设计也更为简单一些。显然GDDR7由PAM4回归PAM3是综合了性能和成本的考虑。对于大部分用户而言，只需要知道最终产品显存容量更大就可以了。

Mega Geometry技术：这是一项新的RTX技术，旨在大幅提升光线追踪应用中的几何细节。

目前为止，首发采用RTX Blackwell GPU的产品包括GeForce RTX 5090，GeForce RTX 5090 D，GeForce RTX 5080，GeForce RTX 5070 Ti 和 GeForce RTX 5070。其中GeForce RTX 5090和GeForce RTX 5090 D的核心信号是GB202，GeForce RTX 5080和GeForce RTX 5070 Ti核心是GB203，GeForce RTX 5070是GB205。

接下来我们将会对RTX Blackwell中的技术细节进行浅析。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第7张

最强游戏芯片：Blackwell GB202 GPU

按照NVIDIA惯例，每一个新的GPU微架构都需要确定明确的设计目标，Turing架构时引入RT Core、Tensor Core，Ampere架构升级SM，增强RT Core和Tensor Core，以及Ada Lovelace增强光线追踪性能和AI神经图形的质量，并追加了DLSS帧生成和光线重建功能，成为光线追踪和神经图形进入主流的转折点。

Turing架构推出之后，能够看到，现在每帧游戏所需的AI TPOS算力随着每一代GPU架构升级呈现出几何级增长的趋势。这让GPU在图形质量和性能上的表现超越了摩尔定律，以一种全新的方式增长。比如DLSS光线重建（DLSS Ray Reconstruction, DLSS RR）能够大幅度减少所需要发射和着色的光线数量，让路径追踪实现逼真的光照成为可能。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第8张

每帧的AI TOPS正在逐年大幅提升

Blackwell首次引入了DLSS 4并具备多帧生成技术，除了提升游戏性能和降低系统延迟，新技术还带来了新的神经渲染技术，包括RTX 神经材质（RTX Neural Materials），RTX神经面部（RTX Neural Faces），RTX神经辐射缓存（RTX Neural Radiance Cache, NRC），以及基于AI的Transformer模型来获得高质量的图像生成。

在消费端提供这些技术的硬件基础的Blackwell GB202 GPU。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第9张

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第10张

完整的GB202 GPU包括12个GPC（Graphics Processing Clusters，图形处理集群），96个TPC（Texture Processing Clusters，纹理处理集群），192个SM（Streaming Multiprocessors，流式多处理器），以及1个512-bit内存接口，配备有16个32-bit内存控制器，用于对显存进行控制。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第11张

值得注意，GB202 GPU还包含了384个FP64核心，即每SM包含两个，FP64 TFLOP速率是FP32 TFLOP速率的1/64，对于消费端而言使用频率不高，但可以保证FP64代码可以被正确的执行。对应的，Tensor Core也包含了少量的FP64 Tensor来确保程序的正确执行。

GPC（Graphics Processing Clusters，图形处理集群）是所有Blackwell GB20x GPU最主要运算单位，每个关键图形处理单元都会摆放在GPC中，每个GPC包括一个专用的光栅引擎（Raster Engine），2组ROP集群（Raster Operations，光栅操作），每个光栅操作分区包括8个独立的ROP单元，8个TPC（Texture Processing Clusters，纹理处理集群），每个TPC包含1个PolyMorph引擎和2个SM（Streaming Multiprocessors，流式多处理器）。

其中PolyMorph引擎主要用于处理图形和计算任务中的几何变换和曲面细分，在处理复杂几何图形的时候，可以获得更高效的多任务能力。

完整的GB202 GPU还包含了128MB L2缓存，GeForce RTX 5090则包含96MB L2缓存，所有的应用在大容量高速缓存中都能受益，特别是光线追踪和路径追踪这样的复杂操作。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第12张

因此，完整的GB202 GPU包括：

24576 个CUDA Core
192个第四代 RT Core
768个第五代Tensor Core
768个纹理单元（Texture Units）

需要注意，GeForce RTX 5090也并非使用完整的GB202核心，而是做了一定程度删减。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第13张

SM（Streaming Multiprocessors，流式多处理器）是NVIDIA GPU架构中的核心部件，也是GPU可以完成大规模并行任务的关键，比如CUDA Core，Tensor Core，RT Core都包含其中。完整的GB202包括192个SM，每个SM包括128个CUDA Core，1个第四代RT Core，4个第五代Tensor Core，4个纹理单元（Texture Units），1个512KB寄存器文件，128KB L1共享缓存，这些缓存可以根据图形和计算工作负载需求进行重新配置。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第14张

Blackwell架构下，INT32整数运算相比Ada Lovelace是翻倍的。原因是INT32和FP32核心进行了完全统一，这也体现了Blackwell SM针对神经网络着色器设计和优化。当然，这也意味着在同一个时钟周期内，只能进行FP32或者INT32其中一个操作。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第15张

GeForce RTX 5090的纹理单元（Texture Units）又GeForce RTX 4090的512个增加到了680个。纹理单元负责处理纹理映射操作，包括从纹理中获取纹理元素（Texels），应用纹理过滤以及纹理坐标处理等等。其中纹理元素（Texels）代表纹理信息、颜色、图案，这些信息被应用于3D表面，定义了物体表面纹理外观。

由于纹理单元增加，GeForce RTX 5090双线性过滤纹理元素处理速率达到了1636.76 Gigatexels/sec，对比GeForce RTX 4090的1290.2 Gigatexels/sec提升了26%。另外RTX Blackwell SM 相比Ada Lovelace SM在每个周期处理点采样纹理的性能也翻倍了，纹理访问的算法也会得到对应的加速。

GDDR7内存子系统

NVIDIA GPU在行业内不可动摇的影响力也直接推动了显存的发展。现在显存架构、电路设计和信号传输都已经围绕GPU内存速度展开匹配。比如Ampere GPU推动了GDDR6X的实装，GeForce RTX 4090更是把GDDR6X的峰值带宽提升到了1TB/s。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第16张

GeForce RTX 5090上的GDDR7是全新的超低电压GDDR内存标准，使用了3个电平的脉冲幅度调制PAM3，这是由NVIDIA与JEDEC技术协会，以及360多家成员公司共同推动的。

由GDDR6X PAM4转向GDDR7 PAM，且结合新的引脚编码方案，可以让GDDR7信噪比显著提升，并且可以让独立通道数量翻倍，可以更大程度减少I/O密度开销。通过改进PAM3信噪比，以及均衡方案，重新设计时钟架构，PAM3让GDDR7获得了显著的带宽提升。与此同时，GeForce RTX 50系列还支持增强型CRC（循环冗余检验）和RAS（可靠性、可靠性、可维护性）要求。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第17张

GeForce RTX 5090配备了28Gbps GDDR7显存，提供1.792TB/s峰值内存带宽。同时，GeForce RTX 5080提供了30Gbps GDDR7显存，提供960GB/s峰值内存带宽。其中主要原因是GeForce RTX 5080的显存是16GB。

第五代Tensor Core：引入FP4

Tensor Core中门用于矩阵乘法累加数学运算而设计，乘法累加器被广泛引用于AI和HPC领域。Blackwell Tensor Core支持FP16、BF16、TF32、INT8、INT4和Hopper FP8 Transformer引擎，同时还新增了对FP4和FP6 Tensor，以及第二代FP8 Transformer引擎，与数据中心级Blackwell GPU相似。

其中重点就是引入了对FP4支持。自从2022年生成式AI模型首次发布以来，随着模型能力的不断增加，对计算和内存需求有了更高的要求，如果按照原来的硬件运行方式，是难以应对这些新增的需求的。这时候从硬件层面引入对FP4数据格式支持，则可以很好的解决这个问题。原因是FP4提供了一种较低的量化方式，类似于文件压缩，能够减少模型的大小。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第18张

相对大多数模型默认使用的FP16精度相比，FP4所需的内存是FP16的不到一半，并且GeForce RTX 50系列可以提供相比上一代2倍以上的性能，FP4可以通过NVIDIA TensorRT模型优化器的量化方式，确保质量不会有太多损失。

这里NVIDIA官方给出了一个例子，Black Forest Labs的FLUX.dev模型在FP16精度下需要超过23GB的显存，但在使用FP4之后，只需要不到10GB显存就能运行，原本需要顶配GeForce RTX GPU才能运行的模型，现在主流RTX GPU也可以运行了。

在生成效率上，GeForce RTX 4090（FP16）FLUX.dev模型生成图像需要15秒，而同样的图像质量GeForce RTX 5090（FP4）只需要5秒出头。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第19张

第四代RT Core：2倍吞吐量提升

第四代RT Core做出了很多重要改进。在Turing、Ampere和Ada Lovelace架构的GPU中，RT Core包含专用的硬件单元，用于层次包围盒加速算法（Bounding Volume Hierarchies，BVH）数据结构遍历，并执行光线与三角形相交，光线与包围盒相交测试计算。它的执行效率更高，也帮助SM从光线追踪的运算中释放出来，专注于像素、顶点、着色的计算任务。

其中光线与三角形相交测试是一项计算密集型操作，RT Core承担着层次包围盒加速算法（Bounding Volume Hierarchies，BVH）数据结构遍历、执行射线/三角形和光线边界框求交计算，也是实时光线追踪在游戏和专业应用实装以来，负载最高的引擎。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第20张

Blackwell架构第四代RT Core提供了比Ada Lovelace架构再度高出2倍的光线与三角形相交测试吞吐量。包围盒碰撞由包围盒碰撞引擎（Box Intersection Engine）完成，射线/三角形求交测试。

与Ada Lovelace一样，第四代RT Core中包含专用的Opacity MicroMaps引擎，这套引擎主要是用来加速不透明度微图的处理，由于可以直接对几何体进行Alpha测试判断物体表面是否可见或者透明，进而减少GPU着色器的计算需求。

另外第四代RT Core还包括一个三角形簇相交引擎（Triangle Cluster Intersection Engine），为全新的Mega Geometry技术加速三角形簇级结构的光线追踪，同时也兼顾常规的光线与三角形相交测试。Mega Geometry技术旨在光线追踪应用中大幅提升几何细节，也是我们后续描述的重点。

另外线性扫掠球（Linear Swept Spheres）也是此次第四代RT Core增加的硬件结构，用于给头发这样的精细几何体增加光线追踪特效。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第21张

Mega Geometry：让细节直逼电影级

在虚幻引擎5这样的新一代游戏引擎中，海量的几何细节构建出了一个更为细致的虚拟世界，其中就会利用到细节层次（系统level-of-detail, LOD）以全保真度进行光线追踪几何体，而不再是进行光线追踪时，通过低分辨率的代理模型实现。这时候阴影、反射、间接照明质量都会向上提升一个层次。如果按照以往常规光线追踪方式，这些功能都是难以在实时运行的状态下实现的，Mega Geometry技术的引入就变得很有必要。换而言之，Mega Geometry的主要目标之一是让光线追踪与现代游戏引擎的细节层次系统无缝结合。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第22张

LOD在3D游戏和3D应用中已经被普遍使用。因为在复杂的游戏世界中，不可能一步到位完成所有模型的3D渲染计算，开发者会根据物体与观察者视距的距离，给物体提供不同精度和细节的模型，并根据摄像机的移动进行动态切换，简单的说就是近距离模型几何形状精度高，纹理细致；远距离物体几何多边形数目少，分辨率低，从而节省内存占用并提高性能。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第23张

但LOD并不是完美的，特别是结合RTX API扩展之后，遇到了两个问题。

第一个问题是，光线追踪效果导致的LOD效率低下。我们现在知道LOD通过判断摄像机与物体的细节来动态调整模型的精细度的，传统的方法会预先计算出少量的网格，代表给定物体不同的LOD级别。

在虚幻引擎5的Nanite系统中，为了增加场景的细节度，会使用大约128个三角形集群来动态刷新LOD级别，从而做到复杂场景下的平滑过渡。当引入光线追踪后，网格内必须构建一个独立的数据结构，即层次包围盒（Bounding Volume Hierarchies，BVH）。在每一帧中，虚幻引擎5 Nanite会对大量多边形物体进行大量的BVH构建操作，从而导致光线追踪实时运算过载。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第24张

Mega Geometry为构建BVH提供了一种新的算法，它将三角形集群作为基础元素，构建出新的聚类加速结构（Cluster-level Acceleration Structures，CLAS），新结构可以按需生成，并最多可以生成256个三角形批次，然后CLAS集合再被用作输入构建BVH。由于每个CLAS代表大约100个三角形集合，依照VLAS构建的BVH的处理量减少了两个数量级，从而允许游戏引擎在每一帧游戏画面中，可以拥有更多的预算进行更多的BVH构建。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第25张

重点是，Mega Geometry不需要过多干预，API使用的是批处理的形式，输入参数来自显存，以便游戏引擎能够高效的在GPU上执行LOD选择、剔除等逻辑操作，如果使用得当，Mega Geometry也可以进一步消除与BVH相关的CPU开销。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第26张

顶层/底层加速结构（TLAS/BLAS）和集群BLAS

第二个问题是应对更多的物体数量。4K或者更高分辨率的推动下，游戏也被要求添加更多的场景物体数量，按照以往的做法，游戏中每一帧都要给场景中所有物体构建一个TLAS（Top -Level Acceleration Structures，顶层加速结构），如果物体数量只有几千个，这种形式运作问题不大，可一旦遇到宏大的游戏世界规模，成本就会变得非常高昂。

为了解决这个问题，Mega Geometry引入一个分区顶层加速结构（Partitioned

Top-Level Acceleration Structure，PTLAS），与每帧从头开始构建新的TLAS不同，PTLAS能够利用场景中大多数物体在不同帧中保持静态的情况，将物体集中到一个分区中，仅更新发生变化的物体，让计算资源只关注发生变化的分区，运行资源节省自然变大。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第27张

NVIDIA Zorah DEMO中就使用了Mega Geometry技术

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第28张

Mega Geometry中的分区顶层加速结构（PartitionedTop-Level Acceleration Structure，PTLAS）

细分曲面

Mega Geometry的主要目标之一是让光线追踪与现代游戏引擎的细节层次系统无缝结合，但应用范围也不限于如此。由于可以灵活的基于GPU完成聚类生成、快速构建BVH，更多高阶的几何技术也可以付诸实践，包括细分曲面。

细分曲面是一种集合表现方式，在电影和生产渲染工作流程中使用较为普遍。例如在1978年被提出的经典Catmull-Clark细分规则对于四边形网络迭代细化，通过位移贴图，获得平滑的渲染表面，使得粗糙的多边形网格细化成光滑的曲面。

细分曲面的光线追踪通过三角化的方式实现，对于动画或者视点变化，每一帧如果都需要重新创建新的细分曲面，会产生大量的BVH需求降低效率。Mega Geometry可以将细分曲面过程直接映射到聚类生成上，从生成的CLAS中快速构建BVH，从而获得更快的实时性能。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第29张

Mega Geometry API与架构支持

Mega Geometry作光线追踪的基础核心技术，将BVH功能提升到一个新的层次，它赋予了游戏和应用更高效的集合管线开发，因此在API和硬件也已经获得对应的支持：

API：Mega Geometry可以应用在所有NVIDIA光线追踪API中：

透过NVAPI扩展，DirectX 12 (DXR) 可支持聚类和 PTLAS

Vulkan通过第三方添加了针对聚类和PTLAS的支持

OptiX 9.0添加了对聚类的原生支持

GPU架构：Mega Geometry支持从Turing架构开始的所有RTX GPU。

Blackwell RT Core也对Mega Geometry提供了原生支持。更确切的说，第四代RT Core是专门针对Mega Geometry设计的，硬件中特殊的聚类引擎实现了新的几何体与BVH数据压缩方案，同时提供了比第三代RT Core高出2倍的光线-三角形相交速率，这让Blackwell在同样的场景中显存的占用可以更少。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第30张

线性扫掠球体（Linear Swept Spheres，LSS）：让头发光追更丝滑

这项技术主要用于解决头发效果的毛糙感和效率。现在用于描绘头发、草地或者其他类似条状物的曲线渲染在搭配光线追踪时，通常需要在软件层面通过自定义相交着色器实现。然而，光线与曲面相交测试的密集计算，会延长渲染器的渲染时间，导致曲线的实时光线追踪很难在实际中使用。

为了节省计算成本，以往制作团队会寻找一种简单的方式来实现近似毛发的效果，不相交正交三角形条带（Disjoint Orthogonal Triangle Strips，DOTS）便是其中之一。它使用一组由三角形条带组成的网格，这些条带呈网格状的、不相交的模式排列，其中的三角形条带相互独立且不共享顶点。虽然这种方法的质量高于卡片方法，但不相交的排列方式会产生边缘伪影，导致渲染中出现明显的缺陷。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第31张

不相交正交三角形条带（Disjoint Orthogonal Triangle Strips，DOTS）

在Blackwell RT Core中首次引入了硬件光线相交测试的支持，从而推出了线性扫掠球体（Linear Swept Spheres，LSS）。LSS类似于条带的细分曲面，但它是通过空间中线线性断的方式扫描球体构建，每一段起始点和终点之间，球体半径可以不同，以支持不同灵活程度的发丝。对应的，LSS在Blackwell中还直接支持球体扫描，对于粒子系统而言非常有用。

英伟达表示，在头发渲染中，LSS的速度比传统DOTS快2倍，同时几何体占用的显存空间也缩减了5倍。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第32张

线性扫掠球体（Linear Swept Spheres，LSS）

着色器执行重新排序2.0（Shader Execution Reordering 2.0，SER 2.0)：更高效的乱序执行

着色器执行重新排序SER是一项厉害的技术，它允许光线追踪应用可以高效地重新组织在GPU上的大规模并行线程，类似于CPU上的乱序执行，最大化的提升硬件利用率。通过SER动态重新排列工作负载，对于需要频繁执行或者内存访问分歧的光线追踪工作非常有效，比如路径追踪从着色器执行重新排序中就能获得大量收益。同时，由于可以将执行神经网络工作负载的现成直接发送给Tensor Core，因此SER还能够显著加速神经网络着色。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第33张

着色器执行重新排序（SER）

在Blackwell上，SER从硬件和软件层面都获得增强，SER核心重新排列逻辑效果提升了两倍，减少了重新排列的开销并提升了精度。更高的精度带来了更智能的连贯性提取，让开发者能够提供更多特定引用的知识来进行重排操作。

SER通过一个小型API控制，并且还引入了光线追踪着色器调用的灵活性，增强了编程模型，使得在重排的同时，也能够进一步简化渲染器的构建，特别是已经在Ada Lovelace上支持SER的工具包而言，Blackwell上的SER 2.0可以无缝使用，不需要任何代码更改。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第34张

AI计算管理器（AI Management Processor, AMP）：让GPU自己管自己

AI计算管理器（AI Management Processor, AMP）是一个可完全编程的上下文调度器，位于GPU之上，旨在帮助GPU在上下文调度任务中剥离出来。AMP增强了Windows管理GPU工作负载的能力。

GPU上下文管理包含了GPU执行一个或者多个任务所需的状态信息，当多个任务进行时，可以使用多个上下文管理来实现更好的任务隔离，并且确保多个应用程序能够同时共享GPU而不会发生冲突。比如游戏中的AI NPC的调动行为，会通过NVIDIA Avatar Cloud Engine（ACE）实现语音、翻译、视觉、动画、行为等模型的同步运行，模型的运行与游戏是同步的，但相互之间不会被干扰。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第35张

AMP通过一个位于GPU管线前端的RISC-V处理器实现，它能提供比以往以来CPU更快的方式实现上下文调度，并且延迟更低。Blackwell AMP调度架构与微软的架构模型匹配，通过Windows硬件加速GPU调度在GPU上配置的方式，让Windows可以更高效的管理GPU的显存，减少延迟，并提升游戏和其他图形计算引用的性能。

AMP在其中扮演的角色是接管CPU调度GPU的工作，从而减少对系统CPU的以来。事实上，GPU管理自己可以减少GPU与CPU之间的通讯次数，对降低系统延迟也提供很好的帮助。

游戏算力天花板，GeForce RTX 5090 Blackwell GPU架构浅析（上）-第36张

AI计算管理器（AI Management Processor, AMP）调度AI与图形的工作负载流程

本质上，AMP的作用是协调和调度，以确保更流畅的游戏体验，避免性能下降。在大语言模型LLMs应用中，AMP通过减少首次使用的响应时间就能很好的证明这一点。在游戏领域，AMP也可以通过优先调度游戏引擎工作，防止游戏卡顿。