HD7970脫胎換骨全測(cè)試!5年架構(gòu)大革命
第二章/第十節(jié) 真正的并行計(jì)算架構(gòu):GT200只為計(jì)算優(yōu)化
G80的MIMD架構(gòu)開(kāi)了一個(gè)好頭,128個(gè)流處理器雖然聽(tīng)起來(lái)雖然沒(méi)有AMD 320個(gè)那么多,但這些流處理器是可以媲美真正的CPU核心,在執(zhí)行任何指令時(shí)都能發(fā)揮出接近理論值的性能,這樣高效率的核心如果只是用來(lái)玩游戲豈不太可惜了?
于是在游戲市場(chǎng)大獲全勝的NVIDIA并沒(méi)有止步于此,而是將目光放在了更長(zhǎng)遠(yuǎn)的高性能計(jì)算領(lǐng)域,一邊著手開(kāi)發(fā)基于GPU計(jì)算的應(yīng)用程序中間件,幫助程序員以更高效的方式開(kāi)發(fā)基于GPU硬件加速的軟件,另一方面在G80的基礎(chǔ)上繼續(xù)優(yōu)化核心架構(gòu),將MIMD架構(gòu)高效率的優(yōu)勢(shì)發(fā)揮到極致!
GT200核心:真正的并行計(jì)算架構(gòu)
G80依然只是為DX10 3D渲染而設(shè)計(jì)的,雖然MIMD架構(gòu)本身能夠勝任并行數(shù)據(jù)計(jì)算的需要,但NVIDIA發(fā)現(xiàn)圖形架構(gòu)還有繼續(xù)改進(jìn)的余地,只要在核心內(nèi)部設(shè)計(jì)全新的控制模塊,并對(duì)微架構(gòu)進(jìn)行專(zhuān)門(mén)的優(yōu)化,就能將GPU的圖形架構(gòu)改造成更加適合非圖形領(lǐng)域的并行數(shù)據(jù)處理架構(gòu)。

第一代統(tǒng)一渲染架構(gòu)的主要目的是把原本像素著色、頂點(diǎn)著色以及新增的幾何著色,統(tǒng)一交給流處理器來(lái)處理。而NVIDIA的GT200核心則被稱(chēng)為第二代統(tǒng)一渲染架構(gòu),其主要含義就是將圖形處理架構(gòu)和并行計(jì)算架構(gòu)完美的結(jié)合起來(lái),成為一顆真正意義上的通用處理器,超越圖形處理器的概念!
GT200相對(duì)于G80,不止是把流處理器數(shù)量從128個(gè)擴(kuò)充到240個(gè)這么簡(jiǎn)單,其實(shí)最關(guān)鍵之處是對(duì)TPC(線(xiàn)程處理器簇)和SM(流處理器簇)的改進(jìn):
新增Atomic原子操作:透過(guò)原子操作,硬粒化之后的線(xiàn)程操作管理將更加有序和具體,這也就意味著像素或者其他類(lèi)型如通用計(jì)算應(yīng)用的Thread的生成、仲裁、泵送、內(nèi)存位置確定和執(zhí)行過(guò)程都將變得更加精確和高效,Atomic單元和原子操作的引入也為未來(lái)NVIDIA構(gòu)架最終實(shí)現(xiàn)并行化設(shè)計(jì)起到了關(guān)鍵的先導(dǎo)作用。
每個(gè)SM可執(zhí)行線(xiàn)程上限提升:G80/G92核心每個(gè)SM(即不可拆分的8核心流處理器)最多可執(zhí)行768條線(xiàn)程,而GTX200核心的每個(gè)SM提升至1024條,而且GTX200擁有更多的SM,芯片實(shí)力達(dá)到原來(lái)的2.5倍!

每個(gè)SM的指令寄存器翻倍:GTX200與G80核心在SM結(jié)構(gòu)上基本相同的,但功能有所提升,在執(zhí)行線(xiàn)程數(shù)增多的同時(shí),NVIDIA還將每個(gè)SM中間的Local Memory容量翻倍(從16K到32K)。Local Memory用于存儲(chǔ)SM即將執(zhí)行的上千條指令,容量增大意味著可以存儲(chǔ)更多的指令、超長(zhǎng)的指令、或是各種復(fù)雜的混合式指令,這對(duì)于提高SM的執(zhí)行效能大有裨益。
DX10游戲會(huì)越來(lái)越多的使用復(fù)雜的混合式Shader指令,一旦排隊(duì)中的超長(zhǎng)指令溢出或者在N個(gè)周期內(nèi)都排不上隊(duì),那么就會(huì)造成效率下降的情況,此時(shí)雙倍寄存器容量的優(yōu)勢(shì)就體現(xiàn)出來(lái)了。由于Local Memory并不會(huì)消耗太多晶體管,因此將其容量翻倍是很合算的。
紋理單元數(shù)量提升,比率下降,達(dá)到了ATI當(dāng)年鼓吹的3:1水平

其它改進(jìn)還有:幾何著色性能提升,提高雙指令執(zhí)行(Dual-Issue)效率,達(dá)到93%-94%之多,支持雙精度64Bit浮點(diǎn)運(yùn)算,運(yùn)算能力為單精度的1/8。
綜合來(lái)看,GT200除了流處理器、紋理單元、光柵單元這些硬貨數(shù)量增多對(duì)游戲性能大有裨益以外,其它細(xì)節(jié)部分的優(yōu)化跟游戲關(guān)系不大。因?yàn)镚T200是為并行計(jì)算而設(shè)計(jì)的,從GT200開(kāi)始,GPU計(jì)算變得更加實(shí)用和普及,NVIDIA的Tesla開(kāi)始進(jìn)入科學(xué)實(shí)驗(yàn)室,并殺進(jìn)超級(jí)計(jì)算機(jī)市場(chǎng)。
關(guān)注我們


