革命性DX11架構(gòu)!GTX480/470權(quán)威評(píng)測
GF100的每個(gè)SM都擁有4個(gè)紋理單元,這樣整顆核心總共就是4x16=64個(gè)紋理單元,數(shù)量居然僅與G92處在同一水平。要知道GTX480被屏蔽了一組SM之后紋理單元只剩下60個(gè),而自家上代GTX285和對(duì)手HD5870都擁有80個(gè)紋理單元。難道說NVIDIA認(rèn)為DX11時(shí)代紋理貼圖并不重要,因此在擴(kuò)充流處理器規(guī)模的同時(shí)忽略了紋理?
GT200的流處理器與紋理
G92的流處理器與紋理
在以往的GT200架構(gòu)中,是三個(gè)SM共享一個(gè)紋理引擎,該引擎含有八個(gè)紋理定址單元和過濾單元。更早的G92則是兩個(gè)SM共享一個(gè)紋理引擎。
GF100的紋理單元確實(shí)是少了,但NVIDIA重新設(shè)計(jì)了紋理單元,通過改進(jìn)效率來提升紋理性能,而不是以暴力擴(kuò)充規(guī)模的方式實(shí)現(xiàn),因?yàn)镹VIDIA發(fā)現(xiàn)龐大規(guī)模的紋理單元也存在瓶頸,而且會(huì)浪費(fèi)很多晶體管。
GF100的每組SM內(nèi)部包含4個(gè)紋理單元
NVIDIA的方法聽起來很簡單,但做起來很復(fù)雜——就是將紋理單元從外圍模塊搬入到了SM之中,從而提升了紋理高速緩存的利用率、并達(dá)到了更高的時(shí)鐘頻率。道理就類似于AMD和Intel把內(nèi)存控制器整合在了CPU內(nèi)部,從而大幅提升了內(nèi)存帶寬和延遲。
我們知道,N卡的流處理器工作頻率非常高,達(dá)到了核心頻率的兩倍甚至更高,而其包括紋理單元、光柵單元及周邊控制模塊在內(nèi)的其它部分工作頻率比較低?,F(xiàn)在NVIDIA將紋理單元轉(zhuǎn)移到了SM內(nèi)部之后,大幅提高了工作頻率,全新的一級(jí)緩存將以1200-1400MHz的全速運(yùn)行,紋理單元雖然還是以半速工作但也受益匪淺。
在GF100架構(gòu)中,每個(gè)SM都擁有自己專用的紋理單元并共享一級(jí)紋理高速緩存,GF100專用的1級(jí)紋理高速緩存經(jīng)過重新設(shè)計(jì),可實(shí)現(xiàn)更高的效率。而且,通過配備統(tǒng)一的2級(jí)高速緩存,紋理可用的最大高速緩存容量達(dá)到了GT200的三倍,為紋理密集的著色器提升了命中率。
每個(gè)紋理單元在一個(gè)時(shí)鐘周期內(nèi)能夠計(jì)算一個(gè)紋理地址并獲取四個(gè)紋理采樣。返回的結(jié)果可以是經(jīng)過過濾的也可以是未過濾的。支持的模式包括雙線性、三線性以及各向異性過濾模式。
而且,紋理單元的內(nèi)部架構(gòu)還得到了大幅增強(qiáng)。在陰影貼圖、屏幕空間環(huán)境光遮蔽等實(shí)際使用情況中,凈效應(yīng)就是所實(shí)現(xiàn)的紋理性能得到了大幅提升。
GF100的紋理單元還新增了對(duì)DirectX 11中BC6H與BC7紋理壓縮格式的支持,從而減少了HDR紋理與渲染器目標(biāo)的存儲(chǔ)器占用。
紋理單元通過DirectX 11的Gather4特性,還支持抖動(dòng)采樣。這樣一來,單一紋理指令就能夠從一個(gè)128×128的像素網(wǎng)格中獲取四個(gè)紋理像素。GF100在硬件上采用了DirectX 11四偏置點(diǎn)Gather4,大大加快了陰影貼圖、環(huán)境光遮蔽以及后期處理算法的速度。憑借抖動(dòng)采樣,游戲就能夠高效地執(zhí)行更加平滑的軟陰影或定制紋理過濾器。
關(guān)注我們



