在NVIDIA與AMD摩拳擦掌即將發佈新GPU之際,第三家可以在GPU領域能夠一戰的英特爾,選擇提前CES 2025一個月的時間,發佈全新的英特爾銳炫ARC B系列GPU,代號Battlemage戰鬥法師。
一向主打性價比的Intel ARC沒有讓人失望,首發兩款產品Intel ARC B580和Intel ARC B570全部直奔2000元人民幣的檔位去的。有足夠的勇氣和實力,以高性價比的姿態,挑戰GeForce RTX 4060建立起來的光線追蹤遊戲門檻,足以讓人敬佩。
筆者在第一時間收到了非常具有紀念價值的官方限定的英特爾銳炫ARC B580 Limited Edition版本,藉著開箱,也讓我們抽點時間瞭解將性價比反擊戰拉響的Battlemage戰鬥法師,厲害在什麼地方。
開箱搶先看
讓我們直奔主題。目前為止已經有宏碁Acer、華擎ASRock、藍戟GUNNIR、銘瑄MAXSUN、ONIX、SPARKLE等顯卡製造商確認將會推出Intel ARC B系列顯卡,其中Intel ARC B580系列會在12月13日之後陸續開賣,定價249美元起步,約1814元人民幣。
定位低一些的Intel ARC B570系列則會在2025年1月16日以後陸續開賣,定價219美元,約1595元人民幣。當然所有人民幣折算定價都是稅前參考價格,實際定價應該還會再高一些,即便如此,兩款顯卡的定價已經展現出了很好的親和力。
Intel ARC B580 Limited Edition則作為官方限定款發售,並且只計劃推出ARC B580版本,ARC B570則僅有第三方版本,足以見得英特爾對ARC B580的重視程度。
因此在包裝上Intel ARC B580 Limited Edition已經盡顯格調。正面和背面的簡約設計和數字旋渦圖騰讓外包裝儀式感拉滿。
內部包裝盒也使用了同樣的深色調設計。
包裝盒本身帶有類似於托盤的設計。在打開盒子後,下方的顯卡會隨著盒子內部的結構被向上託舉30度左右,讓Intel ARC B580 Limited Edition以最帥的一面呈現給玩家。盒子上方的Let‘s Play則藏了產品快速指導書,以及附贈品。
Intel ARC B580 Limited Edition本身則是被一塊絨布所覆蓋的,掀開之後就能看到ARC B580本體了。
Intel ARC B580 Limited Edition設計非常簡約,並使用了雙卡槽小板設計。也就是所有PCB和芯片都集中在顯卡的前半部分,後半部分使用了鏤空的設計。英特爾表示,這樣的設計可以獲得更好的散熱性能,並且在氣流上也得到了優化,風扇噪音也可以更安靜。
顯卡另一面則使用雙風扇設計,顯卡本體很輕,外殼使用了細膩的磨砂質感,手感非常好。
在接口上,Intel ARC B580 Limited Edition提供了3個DisplayPort 2.1接口,最高可實現UHBR 13.5,即每一個通道可以做到13.5Gbps傳輸速率,4個通道最終實現54Gbps的最大吞吐量。最下方一個接口則是HDMI 2.1。
供電接口則選擇了傳統的8pin電源接口,Intel ARC B580的供電需求為190W,ARC B570則只需要150W。另外PCIe接口使用了PCIe 4.0 x8的規格,這個設計思路與GeForce RTX 4060相似,PCIe 4.0 x8已經足夠GPU的數據傳輸,並且也可以很好的控制成本。
顯卡的另一邊使用了稜角內凹設計,凸顯了Intel ARC B580 Limited Edition的設計感。
附送的配件似乎還可以組裝出一張紙模的ARC B580顯卡,筆者會努力一下,正式評測解禁的時候將其組裝完成。
雖然現在評測性能還不能公佈,但是Intel ARC B580和ARC B570的大致參數可以先看一下。比如Intel ARC B580 Limited Edition具備20個Xe Core,20個光線追蹤單元,160個XMX AI引擎,GPU頻率來到2670MHz,並具備12GB GDDR6 192bit顯存,顯存帶寬達到456 GB/s,TDP 233W。
Intel ARC B570則具備18個Xe Core,18個光線追蹤單元,144個XMX AI引擎,GPU頻率來到2500MHz,並具備10GB GDDR6 160bit顯存,顯存帶寬達到380 GB/s,TDP 203W。
BMG-G21敬上
Intel ARC B580和ARC B570都使用了BGM-G21核心,架構版本12.7,使用的是臺積電6N製造工藝,晶體管數量為217億個,且支持DirectX 12 Ultimate,意味著DX12 Ultimate中要求的光線追蹤、可變速率著色都可以很好的實現。
從整體上來看,滿配的BGM-G21核心包括5個渲染切片(Render Slice),20個Xe Core,160個XMX引擎,20個光線追蹤單元,20個紋理單元,10個像素後端,並且共享18MB的L2緩存,以及2個Multi-Format X-coders用於處理多種數據格式轉碼。
其中渲染切片(Render Slice)仍然是構成ARC GPU的基礎。與Lunar Lake的iGPU一樣,ARC B580和B570的BGM-G21核心使用的是Xe2渲染切片,新的渲染切片引入了對於Excute Indirect的支持,原來3D任務需要CPU把指令給到GPU,然後由GPU去運算執行,而在Excute Indirect功能支持下,部分命令可以直接在GPU本地執行,不需要CPU一條條告訴GPU做什麼,而是GPU本身就具備Draw、Dispatch的能力,這些命令可以直接在GPU裡直接完成。此外,幾何單元改進達成頂點獲取(Vertex Fetch)吞吐提升3倍,mesh shading性能提升3倍。
此外,緩存部分的壓縮率和吞吐量也有了明顯提升,包括提升了L1 Cache的利用率,Sampling吞吐提升2倍,Pixel Color Cache提升1.33倍等等。
在Xe2架構也讓Battlemage加入了XVE矢量引擎、更高效的XMX引擎等。XMX矩陣單元同樣作為MAC乘法累加計算使用,這個功能類似於NVIDIA Tensor Core的AI推理性能,利用專屬的硬件提升遊戲中XeSS分辨率超採樣的效率。在此之前的Xe-LPG利用的是DP4a指令實現,效率自然是跟不上硬件的XMX矩陣的。
Xe2中的Xe核心包含8個512bit矢量引擎,相比上一代Xe的16個矢量引擎減少了一半,另一半用來放前面提到的2048bit XMX矩陣引擎來實現更好的運算支持。XMX矩陣引擎包含INT2、INT4、INT8以及FP16、BF16在內精度計算,並對FP64提供支持,從而實現對更豐富的推理模型的兼容。
由於XMX引擎支持Int8 4096 OPS/clock和FP16 2048 OPS/clock算力,遠高於XVE矢量引擎,在重負荷AI加速中,可以扮演重要角色。同時Xe2在SIMD16的基礎上,增加了對SIMD32的支持,即一次處理32個數據元素。雖然這個設計是基於SIMD16上獲得而不是原生,但可以確保Intel ARC B580運行更大規模的矩陣乘法,或者處理圖形渲染中更復雜的計算效率。
光線追蹤單元部分,Xe RTU光線追蹤單元也進行了拓寬,提供三條遍歷通道,18 x Box intersections和2 x Triangle intersections計算,能夠更快速地進行盒子和三角形之間的交叉檢測。其中Box intersections是指單元在光線與盒子或者說包圍體積相交時所能處理的數量,Triangle intersection指代光線與三角形相交時所能處理的數量。
另外得益於架構和工藝的優化,BGM-G21核心的能耗比也顯著提升了50%,效能是上一代ARC GPU無法比擬的。例如Draw XI執行的圖形渲染處理,效能可以做到第一代ARC GPU的12.5倍。
同時英特爾還使用了《要塞英雄》來舉例,每一個階段的處理,Xe2都做了更好的優化,整體延遲也更低了。
XeSS 2與XMX AI一個不落
傳統GPU依靠的渲染能力來展現性能。而在近幾年的GPU性能展現中,AI加速遊戲的性能也早已成為重要一環,具備通用架構的XeSS應運而生,而Battlemage開始也正式引入了XeSS 2。
XeSS 2有了明顯的進步,它由三個部分組成,包含XeSS超分辨率(XeSS Super Resolution,XeSS-SR),XeSS幀生成(XeSS Frame Generation,XeSS-FG),Xe低延遲(Xe Low Latency,XeLL),這也是新顯卡和新遊戲都逐漸展開支持的技術。
不同於NVIDIA使用獨立的光流加速器硬件來實現幀生成技術,XeSS FG依賴的是自己的XMX AI引擎來實現,具體做法是渲染出第一幀和第二幀,然後通過插幀技術和AI算法生成這兩幀之間的中間幀。第一幀和第二幀是遊戲引擎原生渲染的結果,而中間幀則是利用AI生成的。在AI生成幀中,英特爾表示一共使用了兩種技術,一種是光流重投影技術,另一種是運動矢量重投影技術。這兩種技術共同作用,以確保插幀的準確性和畫面的流暢性。
因此在工作模式中,會先由XeSS-SR實現遊戲超分,以降低GPU負荷和提升遊戲幀率,然後再通過XeSS-FG實現幀生成。在具體表現上,英特爾用《F1 24》舉例,在1440p最高畫質下,XeSS 2最高可以提升3.9倍的幀率。
AI幀生成也意味著要解決延遲問題,XeLL由此誕生,具體做法是消除CPU隊列等待過程,對於英特爾而言,在硬件和驅動層面控制CPU配合顯然要比NVIDIA嫻熟許多。
這裡展示F1 2024作為展示,在原生狀態下跑了48FPS,57ms延遲,開了XeSS 2之後,提升到152FPS,28ms延遲,進步是非常明顯的。
另外,英特爾也提供了僅在驅動層面實現的模式,原理與XeLL類似,但不需要遊戲本身支持,只要驅動更新即可。效率沒有遊戲原生支持那麼高,但提升也已經很明顯。
英特爾強調XeSS 2 API加入非常方便,不會讓遊戲製作組增加太多的工作量,目前已經有十款遊戲表示會加入對XeSS 2的支持。
無論XeSS 2還是XeSS-FG,本質上都是依賴於XMX AI引擎。除了前面提到XMX AI引擎可實現INT2、INT4、INT8以及FP16、BF16在內精度計算,並對FP64提供支持,從而實現對更豐富的推理模型的兼容,在生成式AI上,也會讓Intel ARC 580成為GeForce RTX 4060的有力競爭者,幫助創作者在不聯網的前提下,就能完成複雜的AI創作。
在顯卡的軟件層面,英特爾在過去一段時間中發佈了超過50次的驅動更新,,其中包括對120款以上的遊戲提供Day-0支持,遊戲覆蓋範圍提升了2.5倍,也包括DX11、DX9等老遊戲的支持,Intel ARC驅動正在肉眼可見的進步。
在發佈新顯卡的同時,英特爾也將重新調整顯卡軟件UI,並增加更好用的顯卡超頻功能。幫助用戶更進一步提升顯卡性能。
性價比凸顯
在性能對比上,英特爾使用Intel ARC B580 Limited Edition與Intel ARC A750 Limited Edition作為對比,在遊戲性能提升幅度上,平均可以獲得24%的性能提升。
如果是與競爭對手對比,Intel ARC B580 Limited Edition可以優於GeForce RTX 4060平均10%,一方面得益於更高的GPU性能,另一方面是Intel ARC B580擁有12GB的顯存。
而具體的性能表現,我們會在評測正式解禁的時候放出更多細節,鑑於不到2000元人民幣的定位,以及優於RTX 4060的表現,對於追求性價比的同學而言,似乎沒有多少拒絕Intel ARC B580的理由。
更重要的是,如果Intel ARC B580和ARC B570實際表現足夠給力,競爭對手們高昂的定價,也應該考慮降一降了。顯然這一次英特爾帶來的Battlemage戰鬥法師,在CES 2025之前就把性價比反擊戰拉響了。