国产成人福利在线视频播放下载,成人无码www免费视频在线看,放荡的美妇在线播放,大地资源网最新更新,国产成人精品日本亚洲网站

泡泡網(wǎng)顯卡頻道 PCPOP首頁      /      顯卡     /      評測    /    正文

革命性DX11架構(gòu)!GTX480/470權(quán)威評測

第四章/第四節(jié) 每組SM擁有一個獨立的多形體引擎

    GF100擁有四個GPC,每個GPC內(nèi)部擁有四組SM,每組SM內(nèi)部包括了32個CUDA核心:

    G80=8 TPC=8x2 SM=8x2x8 SP

    GT200=10 TPC=10x3 SM=10x3x8 SP

    GF100=4 GPC=4x4 SM=4x4x32 SP

    現(xiàn)在我們就可以了解到,GF100與上代的GT200和上上代的G80相比,SM的變化非常大。GF100每組SM當中擁有32個流處理器,而GT200/G80的每組SM都是8個流處理器。在SM內(nèi)部流處理器數(shù)量翻三倍的同時,GPC/TPC的構(gòu)成也發(fā)生了變化,G80每個TPC內(nèi)部擁有2組SM,GT200是3組SM,而GF100每個GPC內(nèi)部則是4組SM。

    對于CUDA核心與SM結(jié)構(gòu)的微調(diào),大家都很容易理解。GF100與GT200最大的不同其實就是PolyMorph Engine,譯為多形體引擎。每個SM都擁有一個多形體引擎,GF100核心總共有多達16個。那么多形體引擎是干什么用的呢?為什么要設(shè)計如此之多?

為什么要設(shè)計多形體引擎?

    之前的GPU架構(gòu)一直都使用單一的前端控制模塊來獲取、匯集并對三角形實現(xiàn)光柵化。無論GPU有多少個流處理器,這種固定的流水線所實現(xiàn)的性能都是相同的。但應(yīng)用程序的工作負荷卻是不同的,所以這種流水線通常會導(dǎo)致瓶頸出現(xiàn),流處理器資源未能得到充分利用。

    實現(xiàn)光柵化并行處理的同時還要保持API的順序是非常困難的,這種難度阻礙了這一領(lǐng)域的重大創(chuàng)新。雖然單個前端控制單元的設(shè)計在過去的GPU中曾有過輝煌的歷史,但是隨著對幾何復(fù)雜度的需求不斷增長,它現(xiàn)在已經(jīng)變成了一個主要障礙。

    Tessellation的使用從根本上改變了GPU圖形負荷的平衡,該技術(shù)可以將特定幀中的三角形密度增加數(shù)十倍,給設(shè)置于光柵化單元等串行工作的資源帶來了巨大壓力。為了保持較高的Tessellation性能,有必要重新平衡圖形流水線。

    為了便于實現(xiàn)較高的三角形速率,NVIDIA設(shè)計了一種叫做“PolyMorph”的可擴展幾何引擎。每16個PolyMorph引擎均擁有自己專用的頂點拾取單元以及鑲嵌器,從而極大地提升了幾何性能。與之搭配的4個并行光柵化引擎,它們在每個時鐘周期內(nèi)可設(shè)置最多4個三角形。同時,它們還能夠在三角形獲取、Tessellation、以及光柵化等方面實現(xiàn)巨大性能突破。

多形體引擎的工作原理:

    多形體引擎擁有五個階段:頂點拾取、Tessellation、觀察口轉(zhuǎn)換、屬性設(shè)置以及流式輸出。每個SM都擁有一個多形體引擎,因此每一階段中所運算得出的結(jié)果都被實時發(fā)送至SM處理。該SM能夠執(zhí)行游戲的著色程序、將結(jié)果迅速返回至多形體引擎中的下一階段,從而保證了最高的執(zhí)行效率。在五個階段都執(zhí)行完畢之后,結(jié)果會被傳遞給光柵化引擎。

    第一個階段是從一個全局頂點緩沖區(qū)中獲取頂點。所獲取的頂點于是被發(fā)送至SM,以進行頂點著色以及外殼著色。在這兩個階段中,頂點從一個物體空間轉(zhuǎn)變成了世界空間,而且還算出了Tessellation所需的參數(shù)(例如細分級別)。Tessellation系數(shù)(或LOD)將被發(fā)送至Tessellator進行鑲嵌處理。

    在第二個階段中,多形體引擎讀取Tessellation系數(shù)。Tessellator將修補面(控制點網(wǎng)格所定義的光滑表面)分成小方塊并輸出許多頂點。修補(u、v)值定義了網(wǎng)格以及形成網(wǎng)格的連接方式。

    全新的頂點被發(fā)送至SM,域著色器與幾何著色器均在這里執(zhí)行。域著色器能夠根據(jù)外殼著色器與Tessellator的輸入來運算每個頂點的最終位置。在本階段中,通常會附上一個Displacement Mapping(貼圖置換)以提升修補面的細節(jié)表現(xiàn)。幾何著色器能夠執(zhí)行任何后期處理、按需增加或刪除頂點以及基元。結(jié)果最終將被發(fā)回至Tessellation引擎。

    在第三個階段,多形體引擎會執(zhí)行觀察窗口轉(zhuǎn)換以及視角校正。接下來就是屬性設(shè)置,把后期觀察口頂點屬性轉(zhuǎn)變成了平面方程,以進行高效的著色器評估。最后,可以選擇將頂點“流出”至存儲器,使其能夠用于更多處理。

RV870只有一個控制引擎:

    ATI似乎也意識到了單個控制引擎不足以滿足如此龐大規(guī)模流處理器并行處理的需要,因此設(shè)計了兩個Rasterizer(光柵器)和Hierarchial-Z(多級Z緩沖模塊)。但其它的模塊如Tessellator(鑲嵌器)、Vertex Assembler(頂點裝配器)、Geometry Assembler(幾何裝配器)都只有一個:

RV870只有一個前端控制引擎

    4:2的光柵化引擎,16:1的多形體引擎(包括Tessellator),GF100的幾何圖形性能有多么強大已經(jīng)可以想象。Tessellation作為ATI發(fā)明的技術(shù),對于圖形渲染流程與負載的改變ATI不會不知道,如此雞肋的設(shè)計只有一個原因,那就是不做任何改動搶先進入DX11時代,至于執(zhí)行效率問題暫時拋諸腦后。

    NVIDIA則比較務(wù)實,他們要的不是搶第一賺噱頭,而是做最完美的DX11顯卡。當NVIDIA的工程師通過計算機模擬測試得知幾何引擎將會成為DX11新的瓶頸之后,毫不遲疑的選擇了將單個控制模塊打散,重新設(shè)計了多形體引擎和光柵化引擎,并分散至每組SM或每個GPC之中,從而大幅提升了幾何性能,徹底消除了瓶頸。

    當然這種革命性的設(shè)計代價很大,消耗了NVIDIA工程師無數(shù)的精力、資源和時間。事實上多形體引擎正是GF100核心最大的變化所在,也是它無法在去年及時發(fā)布的本質(zhì)原因。

0人已贊
第1頁:千呼萬喚始出來 GTX480/470終于降臨第2頁:DX10.0大革命:畫面很完美、但速度很慢第3頁:DX10.1小修補:片面追求畫面行不通第4頁:DX11時代來臨:為高效率游戲而生第5頁:DX11特性解讀:Shader Model 5.0第6頁:DX11特性解讀:多線程處理第7頁:DX11特性解讀:兩種新的紋理壓縮格式第8頁:Tessellation:ATI原創(chuàng)技術(shù)但孤掌難鳴第9頁:Tessellation:細分曲面的原理第10頁:Tessellation:DX11中的改進第11頁:Tessellation的妙用:虛假貼圖終結(jié)者第12頁:Tessellation的妙用:隨風飄揚的旗幟第13頁:Tessellation的妙用:波瀾壯闊的水面第14頁:Tessellation的妙用:不可思議的長發(fā)第15頁:DirectCompute與Stream/CUDA/OpenCL第16頁:DirectCompute 10/11版本間的區(qū)別第17頁:DirectCompute11的妙用:順序無關(guān)透明第18頁:DirectCompute11的妙用:電影級景深第19頁:DirectCompute11的妙用:高清晰環(huán)境光第20頁:GF100圖形架構(gòu):絕非新品裝舊酒第21頁:GF100圖形架構(gòu):芯片圖與架構(gòu)圖第22頁:GF100圖形架構(gòu):居然是四核心GPU第23頁:GF100圖形架構(gòu):強大的多形體引擎第24頁:GF100圖形架構(gòu):第三代流處理器第25頁:GF100圖形架構(gòu):紋理單元不升反降?第26頁:GF100圖形架構(gòu):一級緩存與二級緩存第27頁:GF100圖形架構(gòu):光柵單元與高倍抗鋸齒第28頁:Fermi計算架構(gòu):GPU并行計算歷史第29頁:Fermi計算架構(gòu):完全按照客戶需求設(shè)計第30頁:Fermi計算架構(gòu):恐怖的雙精度性能第31頁:Fermi計算架構(gòu):首次支持C++編程第32頁:Fermi計算架構(gòu):首次支持顯存ECC第33頁:Fermi計算架構(gòu):NVIDIA Nexus開發(fā)平臺第34頁:附加功能增強:PhysX物理加速第35頁:增強附加功能:3D立體3屏技術(shù)第36頁:增強附加功能:光線追蹤第37頁:GTX400實物對比:造型一點都不夸張第38頁:GTX480實物:官方藝術(shù)照賞析第39頁:GTX470實物:官方藝術(shù)照賞析第40頁:GTX480實物:外觀和散熱器實拍圖第41頁:GTX480實物:全裸拆解與顯存解析第42頁:GTX480實物:供電模塊全解析第43頁:GTX470實物:外觀與散熱器賞析第44頁:GTX470實物:全裸拆解與供電解析第45頁:首批上市顯卡:七彩虹GTX470第46頁:Demo解析:8800/GTX200 Demo回顧第47頁:Demo解析:Supersonic Sled寓教于樂第48頁:Demo解析:Supersonic Sled物理效果第49頁:Demo解析:RagingRapidsRide第50頁:Demo解析:Island11震撼的水面第51頁:Demo解析:Hair不可思議的長發(fā)第52頁:Demo解析:Design Garage實時光線追蹤第53頁:測試平臺:Core i7 975 + X58豪華配置第54頁:DX10理論測試:《3DMark Vantage》第55頁:DX11理論測試:《Heaven Benchmark》第56頁:DX11游戲:《BattleForge》第57頁:DX11游戲:《STALKER:COP》第58頁:DX11游戲:《塵埃2》第59頁:DX11游戲:《異形大戰(zhàn)鐵血戰(zhàn)士》第60頁:DX11游戲:《戰(zhàn)地:叛逆聯(lián)隊2》第61頁:DX11游戲:《地鐵2033》第62頁:DX10.1游戲:《孤島驚魂2》第63頁:DX10.1游戲:《鷹擊長空》第64頁:DX10游戲:《孤島危機:彈頭》第65頁:DX9C游戲:《使命召喚:現(xiàn)代戰(zhàn)爭2》第66頁:PhysX游戲:《蝙蝠俠》第67頁:微軟DX11 SDK:SUBD11第68頁:微軟DX11 SDK:PN Triangles第69頁:NVIDIA Demo:Island11第70頁:NVIDIA Demo:Hair第71頁:視頻轉(zhuǎn)碼測試:Badaboom第72頁:科學計算測試:Folding Home第73頁:溫度測試:風扇溫控90度開始加速第74頁:功耗測試:先準備600W電源吧第75頁:測試成績匯總:GTX480比GTX470強多少第76頁:測試成績匯總:GTX480 PK HD5870第77頁:測試成績匯總:GTX470 PK HD5850第78頁:GTX480雙卡SLI效率測試第79頁:全文總結(jié)與展望:DX11爭霸賽才剛開始第80頁:首批上市GTX480/470顯卡及有獎互動

關(guān)注我們

泡泡網(wǎng)

手機掃碼關(guān)注