国产成人福利在线视频播放下载,成人无码www免费视频在线看,放荡的美妇在线播放,大地资源网最新更新,国产成人精品日本亚洲网站

泡泡網(wǎng)顯卡頻道 PCPOP首頁      /      顯卡     /      評(píng)測    /    正文

HD7970脫胎換骨全測試!5年架構(gòu)大革命

    泡泡網(wǎng)顯卡頻道1月9日 2012.1.9日注定成為顯卡發(fā)展史上光輝的一天。這一天過后,全世界的骨灰玩家們不用再為選擇GTX580還是HD6970而發(fā)愁了。腳踩28nm祥云,手持DX11.1利劍,2048sp的HD7970如約而至,發(fā)出的卻不是高端顯卡司空見慣的怒吼,而是沁人心扉的天籟梵音~

HD7970

    曾經(jīng)與Intel“摩爾定律”齊名的NVIDIA“黃氏定律”稱“在圖形處理器領(lǐng)域,每過半年GPU的性能提高一倍”!但縱觀2011年,不管是NVIDIA還是AMD,桌面顯卡發(fā)展都陷入了一種形式化的怪圈,新品看似不斷實(shí)則“不新”、定位看似精準(zhǔn)實(shí)則混亂,架構(gòu)工藝鮮有創(chuàng)新,性能體驗(yàn)躑躅不前。GTX500和HD6000均乏善可陳,反而讓Intel集顯在轉(zhuǎn)碼領(lǐng)域搶到一席之地。

    烏云蔽日終有散時(shí),就在今天,AMD厚積薄發(fā),一舉推出架藝雙馨的旗艦產(chǎn)品,南方群島系列顯卡呼之欲出,顯卡產(chǎn)業(yè)再次煥發(fā)生機(jī)!

泡泡網(wǎng)HD7970特別專題頁面點(diǎn)擊進(jìn)入

HD7970脫胎換骨全測試!5年架構(gòu)大革命

第一章 AMD和NVIDIA在顯卡發(fā)展過程中遇到的困難

第一章/第一節(jié) 半導(dǎo)體制造工藝制約GPU的發(fā)展

    既然前面提到了“黃氏定律”,我們不妨來回顧一下“摩爾定律”,這條早在1965年提出的理論至今都依然有效,并且暗中左右著半導(dǎo)體芯片的發(fā)展,其大致內(nèi)容是“集成電路上可容納的晶體管數(shù)目,約每隔18個(gè)月便會(huì)增加一倍,性能也將提升一倍?!?/P>

DX11性價(jià)比之王!GTX460

圖例:如果用1000nm工藝制造Core i7,其核心面積將會(huì)有一本書這么大

    “摩爾定律”最基本的涵義就是:半導(dǎo)體工藝需要一年半甚至更多的時(shí)間才能前進(jìn)一代。但對(duì)于芯片級(jí)企業(yè)來說,如果這么久的時(shí)間才推出一代產(chǎn)品的話,顯然是無法滿足市場需求的。于是Intel率先提出了Tick-Tock(工藝年-構(gòu)架年)的戰(zhàn)略模式,在半導(dǎo)體制造工藝停滯不前的情況下,通過改進(jìn)架構(gòu)來提升性能,而在架構(gòu)保持不變的情況下,通過更新工藝來提升性能改善功耗,兩種方案交替更新、相得益彰。

DX11性價(jià)比之王!GTX460

GTX260與HD4870賣同樣的價(jià)錢,大核心顯然要吃虧一些

    近年來的GPU的發(fā)展也與CPU非常類似,GPU的晶體管規(guī)模比CPU更為龐大,更加迫切的需要先進(jìn)制造工藝的支持。但目前只有臺(tái)灣島內(nèi)的臺(tái)積電這家公司才有能力制造高度復(fù)雜的GPU,而最近臺(tái)積電在新工藝的研發(fā)方面遇到了些麻煩,進(jìn)展不是很順利。

    其實(shí)臺(tái)積電40nm工藝的投產(chǎn)就已經(jīng)讓AMD和NVIDIA很頭疼了,它直接造成了HD4770以及HD5870/5770系列產(chǎn)能不足的局面,也讓NVIDIA的巨無霸核心GF100良率低下、功耗超高?,F(xiàn)在臺(tái)積電又因故取消了32nm工藝的研發(fā),轉(zhuǎn)而直接上馬28nm,不管是AMD還是NV,均為新工藝捏了一把汗。

第二代DX11架構(gòu)!HD6870/6850全面評(píng)測

    AMD最初的規(guī)劃就是代號(hào)為“北方群島”(Northern Islands)的新一代圖形架構(gòu),準(zhǔn)備采用臺(tái)積電32nm工藝制造,具體核心代號(hào)有Cozmuel、Kauai、Ibiza。但由于臺(tái)積電取消32nm,AMD不得不更改計(jì)劃,一邊等待新工藝、一邊使用現(xiàn)有成熟的40nm工藝、在上代產(chǎn)品基礎(chǔ)上開發(fā)改進(jìn)型產(chǎn)品。

    于是就誕生了代號(hào)為NI-40過渡型HD6000系列,保持40nm工藝不變,在現(xiàn)有架構(gòu)的基礎(chǔ)上進(jìn)行小修小補(bǔ)。HD6000系列相比HD5000系列,雖然核心架構(gòu)和外圍功能模塊、甚至顯示輸出部分都有了增強(qiáng),但性能卻沒有什么起色。

第一章/第二節(jié) 皇位之爭:AMD和NVIDIA的“巔峰對(duì)決”

    兩軍交戰(zhàn),陣前能斬落敵方武將于馬下,則士氣大振,已然勝了一半。而在PC領(lǐng)域,處理器和顯卡等核心產(chǎn)品線的戰(zhàn)場上也是同樣的道理,旗艦級(jí)顯卡作為各自最強(qiáng)3D圖形性能的代表,肩負(fù)著展示技術(shù)、樹立形象、打擊競爭的特殊使命。

HD7970

    NVIDIA和AMD兩大巨頭之間每一次優(yōu)異產(chǎn)品的對(duì)決都可以用驚天地、涕鬼神來形容!對(duì)于消費(fèi)者來說,新旗艦的性能總能給人驚喜,更讓人激動(dòng)的是那些首次應(yīng)用的新技術(shù)和特效:革命性的架構(gòu)往往就是從旗艦顯卡開始!

HD7970

    NVIDIA很早就意識(shí)到了這一點(diǎn),因此近年來他們對(duì)旗艦級(jí)顯卡性能之王的寶座看得很重,明知臺(tái)積電壓力山大,也要在晶體管堆積上取得優(yōu)勢。

HD7970

    在兩大圖形巨頭日漸白熱化的競爭中,半年更新、一年換代早已成為顯卡領(lǐng)域的“摩爾定律”。而每當(dāng)新王者登基、改朝換代之時(shí),我們也會(huì)于第一時(shí)間為大家獻(xiàn)上詳細(xì)的評(píng)測文章。

第二章 南方群島之 Tahiti 架構(gòu)解析

    作為顯卡來說,AMD的Radeon自HD4000時(shí)代以來為游戲玩家提供了眾多優(yōu)秀的產(chǎn)品,HD5000/HD6000系列絲毫不輸給NVIDIA同級(jí)產(chǎn)品,性能、功能、價(jià)格、功耗等各方面表現(xiàn)得都很不錯(cuò)。對(duì)于AMD下代HD7000系列,我們毫不懷疑它在3D游戲中會(huì)有更出色的表現(xiàn)。

    但作為GPU來說,AMD的產(chǎn)品顯然要遜色很多,不支持物理加速、Stream通用計(jì)算性能不如CUDA,支持GPU加速的軟件也屈指可數(shù),這已經(jīng)成為AMD最大的軟肋,并且成了NVIDIA和NFan們攻擊的對(duì)象。

第一節(jié) Radeon是一款好顯卡,但不是顆好GPU

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

(本章圖/文孫敏杰)

    隨著時(shí)間的推移,保守的AMD終于嘗到了固步自封的苦果:當(dāng)NVIDIA的CUDA計(jì)算課程進(jìn)入高校學(xué)堂、Tesla殺進(jìn)超級(jí)計(jì)算市場、Quadro拿下95%的專業(yè)卡市場份額之時(shí),AMD的Radeon還只能游弋在3D游戲領(lǐng)域,苦守來之不易的半壁江山。

    想當(dāng)年AMD率先提出GPU通用計(jì)算的概念,但最終卻在NVIDIA的CUDA手中發(fā)揚(yáng)光大。很多人以為這是AMD收購ATI后自顧不暇的關(guān)系,其實(shí)根本原因還在于GPU的架構(gòu)——傳統(tǒng)基于3D圖形處理的GPU不適合于進(jìn)行大規(guī)模并行計(jì)算,AMD的GPU擁有恐怖的理論運(yùn)算能力卻無從釋放。而NVIDIA則從G80時(shí)代完成了華麗的轉(zhuǎn)身,逐步完善了硬件和軟件的協(xié)同工作,使得GPU成為高性能計(jì)算必不可少的配件。

華麗的轉(zhuǎn)身!AMD次世代GPU架構(gòu)全解析

    俗話說的好:苦海無涯、回頭是岸,亡羊補(bǔ)牢、為時(shí)不晚。AMD終于在代號(hào)為Southern Islands(南方群島)的新一代GPU中,啟用的全新的架構(gòu),AMD稱之為“Graphics Core Next”(GCN,次世代圖形核心),并冠以革命性的稱號(hào)。這是AMD收購ATI之后的近5年來第一次對(duì)GPU架構(gòu)進(jìn)行“傷筋動(dòng)骨”的“手術(shù)”,而架構(gòu)調(diào)整的核心內(nèi)容則是為并行計(jì)算優(yōu)化設(shè)計(jì)。

    那AMD的“次世代圖形核心”相比沿用了五年之久的架構(gòu)到底有何改進(jìn)?其并行計(jì)算性能相比對(duì)手NVIDIA有無優(yōu)勢?3D游戲性能會(huì)否受到影響呢?本文將為大家做一個(gè)全方位的解析,文中會(huì)穿插一些3D渲染原理以及顯卡基礎(chǔ)知識(shí),并談?wù)凣PU圖形與計(jì)算的那些事兒……

第二章/第二節(jié) 成也微軟敗也微軟:XBOX360阻礙顯卡/游戲發(fā)展

    微軟的DirectX 9.0C是一個(gè)神奇的圖形API,自2004年首款DX9C顯卡GeForce 6800 Ultra問世以來,至今已有將近8年時(shí)間,之后雖然微軟發(fā)布了DX10、DX10.1、DX11、還有現(xiàn)在的DX11.1等多個(gè)新版本,但DX9C游戲依然是絕對(duì)主流,DX10以后的游戲全部加起來也不過幾十款而已!

    因此,當(dāng)年的DX9C顯卡之戰(zhàn),很大程度上決定了此后很多年的顯卡研發(fā)策略。從最開始X800不支持DX9C對(duì)抗6800失利,到X1800支持DX9C卻性能不濟(jì),再到X1900登上頂峰,還有半路殺出來XBOX360這個(gè)程咬金,ATI被AMD收購前的經(jīng)歷猶如過山車般驚險(xiǎn)刺激!

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

    DXC如此長壽的原因,相信游戲玩家們已經(jīng)猜到了,那就是游戲主機(jī)太長壽了——微軟XBOX360以及后來索尼PS3使用的GPU都是DX9C時(shí)代的產(chǎn)品。游戲開發(fā)商的主要盈利來源在主機(jī)平臺(tái),所以根本沒心思把PC游戲做好,尤其對(duì)提高PC游戲的畫面及引擎優(yōu)化提不起興趣,個(gè)別以高畫質(zhì)而著稱的PC游戲倍受打擊,很多DX10游戲續(xù)作倒退到DX9C就是很好的證明。

    可以說,這么多年來PC 3D游戲圖形產(chǎn)業(yè)的發(fā)展,成也微軟、敗也微軟。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

XBOX360的GPU——Xenos,由ATI設(shè)計(jì)

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

Xenos的核心架構(gòu)圖

    微軟XBOX360的成功,給GPU供應(yīng)商ATI發(fā)出了一個(gè)信號(hào),那就是今后N年內(nèi)的游戲都將基于XBOX360的硬件而開發(fā)。當(dāng)時(shí)ATI與Xenos同時(shí)研發(fā)的一顆GPU代號(hào)為R580,倆者擁有相似的架構(gòu),而R580在當(dāng)年也成為DX9C顯卡的王者,這就讓ATI更加堅(jiān)定了維持現(xiàn)有架構(gòu)不變的決心。

第二章/第三節(jié) 從X1900XTX談起:用3:1黃金架構(gòu)做計(jì)算

    下面我們就來看看R580的核心架構(gòu),也就是當(dāng)年的王者X1900XTX/X1950XTX所使用的GPU,后來次高端RV570核心(X1950Pro)的架構(gòu)也類似。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

R580:8個(gè)頂點(diǎn)著色單元、48個(gè)像素著色單元、16個(gè)紋理單元

    DX9C顯卡還沒有統(tǒng)一渲染架構(gòu)的概念(XBOX360的Xenos是個(gè)特例),所以R580依然是頂點(diǎn)與像素分離式的設(shè)計(jì)。當(dāng)時(shí)的GPU核心部分被稱為管線,比如7800GTX擁有24條像素渲染管線,但X1900XTX卻不能稱為擁有48條像素渲染管線,因?yàn)樗南袼嘏c紋理單元數(shù)量不對(duì)等。

    GPU的工作原理:

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

    顯卡的渲染流程是通過頂點(diǎn)單元構(gòu)建模型骨架,紋理單元處理紋理貼圖,像素單元處理光影特效,光柵單元負(fù)責(zé)最終的像素輸出。

    GPU的管線是什么:

    在R580之前,GPU的像素單元與紋理單元還有光柵單元是綁定在一起的,數(shù)量一樣多,整個(gè)渲染過程就是流水線作業(yè),因此像素與紋理加起來稱為一條管線。

    什么是3:1架構(gòu)?

    R520核心(X1800XT)的像素與紋理都是16個(gè),但R580核心在紋理單元維持16個(gè)不變的情況下,把像素單元擴(kuò)充了3倍達(dá)到了48個(gè)之多。ATI研發(fā)工程師發(fā)現(xiàn)新一代游戲中使用像素著色單元的頻率越來越高,各種光影特效(尤其HDR)吃掉了像素著色單元的所有資源,而紋理單元的負(fù)載并不高,繼續(xù)維持像素與紋理1:1的設(shè)計(jì)就是浪費(fèi)資源,于是ATI根據(jù)3D游戲引擎的發(fā)展趨勢做出了改變,并把R580這種不對(duì)等的架構(gòu)稱之為3:1黃金架構(gòu),管線的概念至此消失。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

像素(算數(shù))與紋理的比例逐年提高

    當(dāng)年ATI前瞻性的架構(gòu)在部分新游戲中得到了應(yīng)驗(yàn),比如在優(yōu)品飛車10、細(xì)胞分裂4、上古卷軸4等游戲中X1900XTX的性能遠(yuǎn)勝7900GTX。此外ATI專為HDR+AA優(yōu)化的架構(gòu)與驅(qū)動(dòng)也讓ATI風(fēng)光無限。

    但事實(shí)上,從1:1大躍進(jìn)到3:1有點(diǎn)太激進(jìn)了,在包括新游戲在內(nèi)的絕大多數(shù)主流游戲中,都無法充分利用多達(dá)48個(gè)像素著色單元的能力。于是ATI的工程師們又有了新的想法:何不用這些像素單元來做一些非圖形渲染的計(jì)算呢?像素單元的核心其實(shí)就是ALU(算術(shù)邏輯單元),擁有十分可觀的浮點(diǎn)運(yùn)算能力。

    蛋白質(zhì)折疊分布式計(jì)算開啟GPU計(jì)算大門:

    2006年9月,在X1900XTX發(fā)布半年之后,ATI與斯坦福大學(xué)相關(guān)科研人員合作,開發(fā)了首款使用GPU浮點(diǎn)運(yùn)算能力做非圖形渲染的軟件——Folding @ Home第一代GPU運(yùn)算客戶端。

    Folding@home是一個(gè)研究蛋白質(zhì)折疊、誤折、聚合及由此引起的相關(guān)疾病的分布式計(jì)算工程。最開始F@H僅支持CPU,后來加入了對(duì)PS3游戲機(jī)的支持,但同樣是使用內(nèi)置的CELL處理器做運(yùn)算。F@H因ATI的加入為GPU計(jì)算翻開了新的一頁,當(dāng)然F@H加入了對(duì)NVIDIA DX10 GPU的支持那是后話。

    什么是通用計(jì)算?

    當(dāng)時(shí)的GPU計(jì)算被稱為GPGPU(General Purpose GPU),傳統(tǒng)的圖形處理器可以被用來做通用目的計(jì)算項(xiàng)目。所謂通用計(jì)算的大體流程就是:待處理的數(shù)據(jù)—〉轉(zhuǎn)換成圖形數(shù)據(jù)—〉GPU處理—〉處理后的圖形數(shù)據(jù)—〉轉(zhuǎn)換成所需數(shù)據(jù)。其實(shí)通用計(jì)算就是把數(shù)據(jù)轉(zhuǎn)換為GPU能夠“看懂”的圖形數(shù)據(jù),實(shí)際上是作為虛擬硬件層與GPU通訊,由于需要前后兩次編譯的過程,因此想要利用GPU強(qiáng)大的浮點(diǎn)運(yùn)算能力,需要很強(qiáng)大的編譯器,程序員的開發(fā)難度可想而知,CPU的運(yùn)算量也比較大。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

    除了蛋白質(zhì)折疊分布式計(jì)算外,當(dāng)年ATI還開發(fā)了AVIVO Video Converter這款使用GPU加速視頻轉(zhuǎn)碼的小工具,雖然效果一般,但也算是開了個(gè)好頭。

    雖然GPU通用計(jì)算的實(shí)現(xiàn)難度很大,但至少GPU實(shí)現(xiàn)了非圖形計(jì)算的目的,而且其性能確實(shí)要比當(dāng)時(shí)的CPU快十幾倍。小有所成的ATI被勝利沖昏了頭腦,他們認(rèn)為自己研發(fā)出了非常先進(jìn)的、最有前瞻性的GPU架構(gòu),還找到了讓GPU進(jìn)行通用計(jì)算的捷徑、還有了AMD這座靠山……最終促使AMD-ATI做出了保守的決定——下代GPU繼續(xù)沿用R580的架構(gòu),不做深層次的改動(dòng)。

第二章/第四節(jié) HD2900XT走向不歸路:超長指令集的弊端

    R520->R580的成功,多達(dá)48個(gè)著色單元功不可沒,這讓ATI對(duì)龐大的ALU運(yùn)算單元深信不疑。ATI認(rèn)為只要繼續(xù)擴(kuò)充著色單元,就能滿足新一代DX10及Shader Model 3.0的要求。

    著色單元的結(jié)構(gòu):

    在圖形處理中,最常見的像素都是由RGB(紅黃藍(lán))三種顏色構(gòu)成的,加上它們共有的信息說明(Alpha),總共是4個(gè)通道。而頂點(diǎn)數(shù)據(jù)一般是由XYZW四個(gè)坐標(biāo)構(gòu)成,這樣也是4個(gè)通道。在3D圖形進(jìn)行渲染時(shí),其實(shí)就是改變RGBA四個(gè)通道或者XYZW四個(gè)坐標(biāo)的數(shù)值。為了一次性處理1個(gè)完整的像素渲染或幾何轉(zhuǎn)換,GPU的像素著色單元和頂點(diǎn)著色單元從一開始就被設(shè)計(jì)成為同時(shí)具備4次運(yùn)算能力的運(yùn)算器(ALU)。

完美DX10!ATI新王者HD2900XT權(quán)威評(píng)測

    數(shù)據(jù)的基本單元是Scalar(標(biāo)量),就是指一個(gè)單獨(dú)的值,GPU的ALU進(jìn)行一次這種變量操作,被稱做1D標(biāo)量。由于傳統(tǒng)GPU的ALU在一個(gè)時(shí)鐘周期可以同時(shí)執(zhí)行4次這樣的并行運(yùn)算,所以ALU的操作被稱做4D Vector(矢量)操作。一個(gè)矢量就是N個(gè)標(biāo)量,一般來說絕大多數(shù)圖形指令中N=4。所以,GPU的ALU指令發(fā)射端只有一個(gè),但卻可以同時(shí)運(yùn)算4個(gè)通道的數(shù)據(jù),這就是SIMD(Single Instruction Multiple Data,單指令多數(shù)據(jù)流)架構(gòu)。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

R580的Shader單元結(jié)構(gòu)

    顯然,SIMD架構(gòu)能夠有效提升GPU的矢量處理性能,由于VS和PS的絕大部分運(yùn)算都是4D Vector,它只需要一個(gè)指令端口就能在單周期內(nèi)完成4倍運(yùn)算量,效率達(dá)到100%。但是4D SIMD架構(gòu)一旦遇到1D標(biāo)量指令時(shí),效率就會(huì)下降到原來的1/4,3/4的模塊被完全浪費(fèi)。為了緩解這個(gè)問題,ATI和NVIDIA在進(jìn)入DX9時(shí)代后相繼采用混合型設(shè)計(jì),比如R300就采用了3D+1D的架構(gòu),允許Co-issue操作(矢量指令和標(biāo)量指令可以并行執(zhí)行),NV40以后的GPU支持2D+2D和3D+1D兩種模式,雖然很大程度上緩解了標(biāo)量指令執(zhí)行效率低下的問題,但依然無法最大限度的發(fā)揮ALU運(yùn)算能力,尤其是一旦遇上分支預(yù)測的情況,SIMD在矢量處理方面高效能的優(yōu)勢將會(huì)被損失殆盡。

    DX10時(shí)代,混合型指令以及分支預(yù)測的情況更加頻繁,傳統(tǒng)的Shader結(jié)構(gòu)必須做相應(yīng)的改進(jìn)以適應(yīng)需求。NVIDIA的做法是將4D ALU全部打散,使用了MIMD(Multi Instruction Multiple Data,多指令多數(shù)據(jù)流),而AMD則繼續(xù)沿用SIMD架構(gòu),但對(duì)Shader微架構(gòu)進(jìn)行了調(diào)整,稱為超標(biāo)量架構(gòu)。

    R600的5D超標(biāo)量流處理器架構(gòu):

完美DX10!ATI新王者HD2900XT權(quán)威評(píng)測

    作為ATI的首款DX10 GPU,架構(gòu)上還是有不少改進(jìn)的,DX10統(tǒng)一渲染架構(gòu)的引入,讓傳統(tǒng)的像素渲染單元和頂點(diǎn)渲染單元合二為一,統(tǒng)稱為流處理器。R600總共擁有64個(gè)Shader單元,每個(gè)Shader內(nèi)部有5個(gè)ALU,這樣總計(jì)就是320個(gè)流處理器。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

R600的Shader單元結(jié)構(gòu)

    R600的Shader有了很大幅度的改進(jìn),總共擁有5個(gè)ALU和1個(gè)分支執(zhí)行單元,這個(gè)5個(gè)ALU都可以執(zhí)行加法和乘加指令,其中1個(gè)"胖"的ALU除了乘加外之外還能夠進(jìn)行一些函數(shù)(SIN、COS、LOG、EXP等)運(yùn)算,在特殊條件下提高運(yùn)算效率!

完美DX10!ATI新王者HD2900XT權(quán)威評(píng)測

    與R580不同的是,R600的ALU可以在動(dòng)態(tài)流控制的支配下自由的處理任何組合形式的指令,諸如1+1+1+1+1、2+2+1、2+3、4+1等組合形式。所以AMD將R600的Shader架構(gòu)稱作Superscalar(超標(biāo)量),完美支持Co-issue(矢量指令和標(biāo)量指令并行執(zhí)行)。

    R600超長指令集的弊端:

    從Shader內(nèi)部結(jié)構(gòu)來看,R600的確是超標(biāo)量體系,但如果從整個(gè)GPU宏觀角度來看,R600依然是SIMD(單指令多數(shù)據(jù)流)的VLIW(超長指令集)體系:5個(gè)ALU被捆綁在一個(gè)SIMD Shader單元內(nèi)部,所有的ALU共用一個(gè)指令發(fā)射端口,這就意味著Shader必須獲得完整的5D指令包,才能讓內(nèi)部5個(gè)ALU同時(shí)運(yùn)行,一旦獲得的數(shù)據(jù)包少于5條指令,或者存在條件指令,那么R600的執(zhí)行效率就會(huì)大打折扣。

    例如:指令一:a=b+c;指令二:d=a*e。這兩條指令中,第二條指令中的a必須等待第一條指令的運(yùn)算結(jié)果,出現(xiàn)這樣的情況時(shí)候,兩條指令大多數(shù)情況下就不能實(shí)現(xiàn)超標(biāo)量執(zhí)行了。

    顯然,想要完整發(fā)揮R600的性能必須滿足苛刻的條件,這個(gè)條件不僅對(duì)驅(qū)動(dòng)和編譯器提出了額外的要求,而且要求程序必須讓條件指令不存在任何關(guān)聯(lián)性,難度可想而知。最終結(jié)果就是絕大多數(shù)情況下R600都無法發(fā)揮出的理論性能,而且其執(zhí)行效率會(huì)因?yàn)閺?fù)雜指令的增多而不斷下降。

第二章/第五節(jié) HD4870的救贖:暴力擴(kuò)充流處理器

    HD2900XT的失敗來自于很多方面,GPU核心架構(gòu)只是冰山一角,就算保守的AMD沿用了DX9C時(shí)代的老架構(gòu),性能也不至于如此不濟(jì)。但無奈GPU架構(gòu)已經(jīng)定型,短期內(nèi)是無法改變了,HD2000和HD3000一敗涂地,AMD咬牙硬抗了兩年之久。就在大家為R600的架構(gòu)爭論不休,大談VLIW指令集的弊端有多么嚴(yán)重時(shí),AMD終于迎來了翻身之作——RV770核心。

    RV770核心:暴力擴(kuò)充流處理器

    RV770相比R600/RV670,核心部分依然沒有任何變化,沿用了之前的Shader單元設(shè)計(jì),只是將數(shù)量擴(kuò)充了2.5倍,流處理器達(dá)到了800個(gè)之多!

800SP怒吼!RV770核心HD4850全面評(píng)測

    RV670/R600是4組SIMD,每組16個(gè)Shader,每個(gè)Shader 5個(gè)流處理器;RV770是10組SIMD,每組16個(gè)Shader,每個(gè)Shader 5個(gè)流處理器。流處理器部分直接擴(kuò)充了2.5倍!

    雖然對(duì)流處理器部分沒有改動(dòng),但AMD對(duì)流處理器以外的幾乎所有模塊都進(jìn)行了改進(jìn),從而使得性能和效率有了質(zhì)的提升,具體改動(dòng)如下:

    抗鋸齒算法改變,性能大幅提升

    紋理單元和光柵單元部分,和流處理器一樣都是數(shù)量翻了2.5倍,但值得一提的是,抗鋸齒算法已經(jīng)由R600/RV670的流處理器部分轉(zhuǎn)移至光柵單元部分,因此RV770的AA效率大幅提高,一舉超越了N卡重現(xiàn)X1000時(shí)代的輝煌,這也就是RV770表現(xiàn)令人驚異的主要原因。

GDDR5的咆哮!AMD旗艦HD4870權(quán)威評(píng)測

    在紋理單元與顯存控制器之間設(shè)有一級(jí)緩存,RV770核心相比RV670,L1 TC容量翻倍,再加上數(shù)量同比增加2.5倍,因此RV770的總L1容量達(dá)到了RV670/R600的五倍之多!

    放棄環(huán)形顯存總線,改用交叉總線

    RV770還放棄了使用多年的環(huán)形顯存總線,估計(jì)是因?yàn)楦哳l率下數(shù)據(jù)存取命中率的問題,回歸了交叉總線設(shè)計(jì),有效提高了顯存利用率,并節(jié)約了顯存帶寬。還有GDDR5顯存的首次使用,瞬間將顯存位寬翻倍,256Bit GDDR5的帶寬達(dá)到了當(dāng)時(shí)N卡512Bit GDDR3的水平。

    總的來說,雖然流處理器部分沒有做改動(dòng),但RV770的非核心架構(gòu)部分有了很大的改良,上代產(chǎn)品許多設(shè)計(jì)失誤得到了糾正,在流處理器數(shù)量暴增運(yùn)算能力大大加強(qiáng)的情況下,消除了功能模塊的瓶頸,從而使得性能有了大幅改進(jìn)。

    VLIW并未降低3D效率,只是妨礙了GPU計(jì)算

    HD4870/HD4850打了一場漂亮的翻身仗,也讓唱衰VLIW的人看傻了眼,之前大家普遍認(rèn)為R600/RV670失敗的主要原因是VLIW的低下效率,事實(shí)證明VLIW并沒有錯(cuò),其效率問題并沒有嚴(yán)重到失控的地步,畢竟DX9C游戲還是主流,頂點(diǎn)與像素操作指令還是大頭。AMD只是錯(cuò)誤的判斷了抗鋸齒的算法和效率,導(dǎo)致第一代DX10 GPU性能不如預(yù)期。

    但最關(guān)鍵的問題不在3D游戲性能方面,AMD對(duì)GPU并行計(jì)算依然沒有投入足夠多的重視,AMD一方面在鼓吹自家Stream通用計(jì)算并不輸給CUDA,各種商業(yè)軟件未來將會(huì)加入支持,另一方面GPU架構(gòu)未做任何調(diào)整,API編程接口支持也舉步維艱。結(jié)果就是Stream軟件無論數(shù)量、質(zhì)量、性能還是發(fā)布時(shí)間都要遠(yuǎn)遠(yuǎn)落后于CUDA軟件。

第二章/第六節(jié) HD5870的輝煌:在錯(cuò)誤的道路上越走越遠(yuǎn)

    R600的失敗讓AMD明白了一個(gè)道理:從哪跌倒要從哪爬起來;RV770的成功讓AMD堅(jiān)信:我們的架構(gòu)是沒有問題的,以前的失敗只是一個(gè)小小的失誤,R600的架構(gòu)前途無量,應(yīng)該加快腳步往前沖……于是乎RV870誕生了。

    如果說RV770是翻身之作,那么RV870(Cypress)就是反攻之作,AMD搶先推出DX11顯卡,在NVIDIA GF100陷入大核心低良率的泥潭時(shí),大舉收復(fù)失地。

    RV870是AMD近年來最成功的一顆GPU核心,但它的成功是拜NVIDIA的失誤所賜,RV870核心本身可以說是毫無新意,因?yàn)樗耆褪荝V770的兩倍規(guī)格,除了顯存控制器以外的所有模塊統(tǒng)統(tǒng)翻倍,AMD沿用RV770暴力擴(kuò)充流處理器的路線,繼續(xù)提高運(yùn)算能力,搶灘登陸DX11。

RV870核心架構(gòu)圖

    把RV870與RV770的架構(gòu)圖放一起的話,可以發(fā)現(xiàn)其外圍周邊模塊幾乎完全相同,而流處理器部分是一分為二的設(shè)計(jì),其中的一半正好就是RV770的規(guī)格。

    除了加入DX11、ShaderModel 5.0的支持,賦予Eyefinity 6屏輸出的功能外,RV870與RV770相比并沒有本質(zhì)改進(jìn)。

    既然流處理器部分還是維持R600的設(shè)計(jì),那就不用期待它在并行計(jì)算方面能有什么改進(jìn)。AMD依然我行我素的在搞通用計(jì)算,支持的軟件還是那么幾款。RV870理論浮點(diǎn)運(yùn)算能力再創(chuàng)新高,但卻沒什么人用,中國最強(qiáng)的超級(jí)計(jì)算機(jī)天河一號(hào)曾經(jīng)使用的是HD4870X2,但后來升級(jí)成天河一號(hào)A之后改用了NVIDIA的Tesla,就是活生生的例子。

第二章/第七節(jié) HD6870的一小步:雙超線程分配處理器

    也許有人會(huì)問,如此暴力的擴(kuò)充流處理器規(guī)模而不更改架構(gòu),R600架構(gòu)會(huì)成為AMD的常青樹嗎?難道不會(huì)有什么瓶頸嗎?當(dāng)然會(huì)有,AMD也發(fā)現(xiàn)了,所以從HD6000系列開始又進(jìn)行了一輪架構(gòu)的微調(diào),透過AMD架構(gòu)微調(diào)這一結(jié)果,我們可以了解出現(xiàn)問題原因到底是什么?

    HD6870的一小步:兩個(gè)超線程分配處理器

    Barts核心的HD6870率先問世,這顆核心定位中端,所以流處理器從Cypress的1600個(gè)精簡到了1120個(gè),流處理器結(jié)構(gòu)依然沒有任何變化,但是前端控制模塊一分為二:

第二代DX11架構(gòu)!HD6870/6850全面評(píng)測

    相信大家應(yīng)該注意到了,以往AMD的SIMD架構(gòu)則是整顆GPU共享單一的控制單元,自R600以來都是如此。

Cypress的單一圖形裝配引擎

    但隨著晶體管規(guī)模和流處理器數(shù)量的迅速膨脹,單一的控制單元已經(jīng)無法滿足大規(guī)模并行指令分配的需要,因此從Cypress開始,AMD采用了“雙核心”的設(shè)計(jì),將SIMD陣列一分為二,也就是類似于NVIDIA GPC的設(shè)計(jì)。與此相對(duì)應(yīng)的,圖形裝配引擎雖然只有一個(gè),內(nèi)部卻設(shè)計(jì)了兩個(gè)Hierarchical Z(分層消影器)和Rasterizer(光柵器),但是其它的特殊功能模塊均只有一個(gè)。

    Barts和Cypress一樣,依然保持了雙核心設(shè)計(jì),圖形引擎也只有一個(gè),內(nèi)部的功能模塊并沒有太多變化。但是Ultra-Treaded Dispatch Processor(超線程分配處理器)卻變成了兩個(gè),相對(duì)應(yīng)的,超線程分配處理器的指令緩存也變成了兩份。

第二代DX11架構(gòu)!HD6870/6850全面評(píng)測

Barts的圖形裝配引擎

    我們知道,Barts的流處理器數(shù)量是Cypress的70%,按理說線程分配壓力有所下降,那么設(shè)計(jì)兩個(gè)線程分配處理器的目的只有一個(gè),那就是提升效率。在DX11時(shí)代,幾何著色再加上曲面細(xì)分單元引入之后,圖形裝配引擎會(huì)產(chǎn)生更多的并行線程及指令轉(zhuǎn)交SIMD進(jìn)行處理,因此指令派發(fā)效率成為了新的瓶頸。

    SIMD架構(gòu)的優(yōu)勢就是可以用較少的晶體管制造成龐大的流處理器規(guī)模,擁有恐怖的理論運(yùn)算能力;但缺點(diǎn)就是流處理器執(zhí)行效率比MIMD架構(gòu)低,其效率高低完全依賴于分配單元的派發(fā)效率。因此Barts這種雙線程分配處理器的設(shè)計(jì)意義重大。

    雙超線程分配處理器的意義:曲面細(xì)分性能翻倍

    HD6000系列可以說是半代改進(jìn)的架構(gòu),既然數(shù)量上維持不變,就只能從改進(jìn)效率的方面考慮了。而改進(jìn)的內(nèi)容就是加強(qiáng)線程管理和緩沖,也就是“雙倍的超線程分配處理器和指令緩存”。

第二代DX11架構(gòu)!HD6870/6850全面評(píng)測

    根據(jù)AMD官方提供的數(shù)據(jù)來看,HD6870的曲面細(xì)分性能最多可達(dá)HD5870的兩倍,這種情況出現(xiàn)在10級(jí)左右的中等細(xì)分程度,當(dāng)曲面細(xì)分達(dá)到20級(jí)以上的時(shí)候,那么它們的性能就基本上沒有區(qū)別了。

    由此可見,Barts核心當(dāng)中的Tessellator單元本身在性能方面應(yīng)該沒有改進(jìn),其性能提升主要源于兩顆超線程分配處理器。中等級(jí)別的曲面細(xì)分在指令分配方面是瓶頸,Barts改進(jìn)的架構(gòu)消除了這一瓶頸,所以性能提升十分顯著,但如果細(xì)分級(jí)別特別高時(shí),Tessellator本身的運(yùn)算能力將成為瓶頸,此時(shí)線程派遣器的效率再高,也無濟(jì)于事。

    看起來,AMD迫切的想要改進(jìn)指令派發(fā)效率,以滿足龐大規(guī)模流處理器的胃口,并且有效的提升備受詬病的曲面細(xì)分性能。AMD的做法就是繼續(xù)保持現(xiàn)有架構(gòu)不變,發(fā)現(xiàn)瓶頸/缺陷然后消除瓶頸/缺陷,這讓筆者想起了一段老話:“新三年舊三年,縫縫補(bǔ)補(bǔ)又三年”。

第二章/第八節(jié) HD6970曇花一現(xiàn):北方群島5D改4D返璞歸真

    相信有些讀者很早就想問這樣一個(gè)問題了:既然圖形渲染的主要指令是4D矢量格式,那為什么R600要設(shè)計(jì)成5D的流處理器結(jié)構(gòu)呢?還沿用了5代之久?有結(jié)果就有原因,通過對(duì)Cayman核心的分析,我們可以找到答案。

    R600為什么是5D VLIW結(jié)構(gòu)?

    在5D VLIW流處理器中,其中的1個(gè)比較“胖”的ALU有別于其它4個(gè)對(duì)等的ALU,它負(fù)責(zé)執(zhí)行特殊功能(例如三角函數(shù))。而另外4個(gè)ALU可以執(zhí)行普通的加、乘、乘加或融合指令。

Barts核心的流處理器結(jié)構(gòu)

    從R600開始的Shader是4D+1D的非對(duì)等設(shè)計(jì),ATI這樣做的目的是為了讓頂點(diǎn)著色器更有效率,以便能同時(shí)處理一個(gè)4D矢量點(diǎn)積(比如w、x、y、z)和一個(gè)標(biāo)量分量(比如光照)。

    Cayman核心返璞歸真,改用4D結(jié)構(gòu)

    隨著DX10及DX11大行其道,AMD通過自己長期內(nèi)部測試發(fā)現(xiàn),VLIW5架構(gòu)的五個(gè)處理槽中平均只能用到3.4個(gè),也就是在游戲里會(huì)有1.6個(gè)白白浪費(fèi)了。顯然,DX9下非常理想的VLIW5設(shè)計(jì)已經(jīng)過時(shí),它太寬了,必須縮短流處理器單元(SPU),重新設(shè)計(jì)里邊的流處理器(SP)布局。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

Cayman核心的流處理器結(jié)構(gòu)

    于是Cayman核心誕生了,胖ALU下崗,只保留了剩下4個(gè)對(duì)等的全功能ALU。裁員歸裁員,原來胖ALU的工作還得有人干,Cayman的4D架構(gòu)在執(zhí)行特殊功能指令時(shí),需要占用3個(gè)ALU同時(shí)運(yùn)算。

    5D改4D之后最大的改進(jìn)就是,去掉了體積最大的ALU,原本屬于它的晶體管可以用來安放更多的SIMD引擎,據(jù)AMD官方稱流處理器單元的性能/面積比可以提升10%。而且現(xiàn)在是4個(gè)ALU共享1個(gè)指令發(fā)射端口,指令派發(fā)壓力驟減,執(zhí)行效率提升。雙精度浮點(diǎn)運(yùn)算能力也從原來單精度的1/5提高到了1/4。

    效率更進(jìn)一步:雙圖形引擎

    前面介紹過,從RV770到Cypress核心,圖形引擎和超線程分配處理器都只有一個(gè),但圖形引擎內(nèi)部的Hierarchical Z(分層消影器)和Rasterizer(光柵器)分為兩份。

    到了Barts核心,超線程分配處理器從一個(gè)變成兩個(gè)?,F(xiàn)在的Cayman核心則更進(jìn)一步,圖形引擎也變成了兩個(gè),也就是除了分層消影器和光柵器外,幾何著色指令分配器、頂點(diǎn)著色指令分配器、還有曲面細(xì)分單元都變成了兩份:

HD6900完全評(píng)測

    兩個(gè)曲面細(xì)分單元再加上兩個(gè)超線程分配處理器,AMD官方稱HD6970的曲面細(xì)分性能可以達(dá)到HD6870的兩倍、HD5870的三倍。其它方面比如頂點(diǎn)著色、幾何著色性能都會(huì)有顯著的提升。

    通用計(jì)算效能也有改進(jìn)

    和Cypress、Barts相比,Cayman在通用計(jì)算方面也有一定程度的改進(jìn),主要體現(xiàn)在具備了一定程度的多路并行執(zhí)行能力;雙路DMA引擎可以同時(shí)透過外部總線和本地顯存讀寫數(shù)據(jù);改進(jìn)的流控制提高了指令執(zhí)行效率和運(yùn)算單元浪費(fèi);當(dāng)然雙精度運(yùn)算能力的提高對(duì)于科學(xué)計(jì)算也大有裨益。

    不過,這些改進(jìn)都是治標(biāo)不治本,VLIW架構(gòu)從5D到4D只是一小步,只能一定程度上的提高指令執(zhí)行效率,而無法根治GPU編程困難、復(fù)雜指令和條件指令的兼容性問題??偟膩碚f,Cayman核心依然只是單純?yōu)橛螒蚨O(shè)計(jì)的GPU,AMD把5D改為4D也是基于提升3D渲染性能的考慮。

第二章/第九節(jié) GPU的一大步:NVIDIA G80圖形架構(gòu)解析

    AMD的GPU架構(gòu)介紹了這么多,對(duì)于其優(yōu)缺點(diǎn)也心知肚明了,之前筆者反復(fù)提到了“效率”二字,其參照物當(dāng)然就是NVIDIA的GPU,現(xiàn)在我們就來看看NVIDIA的GPU架構(gòu)有什么特點(diǎn),效率為什么會(huì)比較高?為什么更適合并行計(jì)算?

    SIMD效率不高的根本原因

    無論AMD怎么調(diào)整架構(gòu),5D還是4D的結(jié)構(gòu)都還是SIMD,也就是這4-5個(gè)ALU要共用一個(gè)指令發(fā)射端口,這樣就對(duì)GPU指令派發(fā)器提出了很高的要求:如果沒有把4-5個(gè)指令打包好發(fā)送到過來,那么運(yùn)算單元就不會(huì)全速運(yùn)行;如果發(fā)送過來的4-5個(gè)指令當(dāng)中包含條件指令,但運(yùn)行效率就會(huì)降至連50%都不到,造成災(zāi)難性的資源浪費(fèi)。

    解決方法也不是沒有,但都治標(biāo)不治本,需要對(duì)游戲/程序本身進(jìn)行優(yōu)化,盡量避免使用標(biāo)量指令、條件指令和混合指令,驅(qū)動(dòng)為程序?qū)iT做優(yōu)化,難度可想而知。

    而治本的方法就是拋棄SIMD架構(gòu),從源頭上解決指令組合預(yù)分配的問題。

    G80革命性的MIMD架構(gòu)

    NVIDIA的科學(xué)家對(duì)圖形指令結(jié)構(gòu)進(jìn)行了深入研究,它們發(fā)現(xiàn)標(biāo)量數(shù)據(jù)流所占比例正在逐年提升,如果渲染單元還是堅(jiān)持SIMD設(shè)計(jì)會(huì)讓效率下降。為此NVIDIA在G80中做出大膽變革:流處理器不再針對(duì)矢量設(shè)計(jì),而是統(tǒng)統(tǒng)改成了標(biāo)量ALU單元,這種架構(gòu)叫做MIMD(Multiple Instruction Multiple Data,多指令多數(shù)據(jù)流)

為王位而生

G80核心架構(gòu),每個(gè)流處理器就是一個(gè)標(biāo)量ALU

    如此一來,對(duì)于依然占據(jù)主流的4D矢量操作來說,G80需要讓1個(gè)流處理器在4個(gè)周期內(nèi)才能完成,或者是調(diào)動(dòng)4個(gè)流處理器在1個(gè)周期內(nèi)完成,那么G80的執(zhí)行效率豈不是很低?沒錯(cuò),所以NVIDIA大幅提升了流處理器工作頻率(兩倍于核心頻率),擴(kuò)充了流處理器的規(guī)模(128個(gè)),這樣G80的128個(gè)標(biāo)量流處理器的運(yùn)算能力就基本相當(dāng)于傳統(tǒng)的64個(gè)(128×2?)4D矢量ALU。大家應(yīng)該知道R600擁有64個(gè)5D矢量ALU,最終的性能G80要遠(yuǎn)勝R600。
 
    當(dāng)然這只是在處理4D指令時(shí)的情形,隨著圖形畫面越來越復(fù)雜,1D、2D、3D指令所占比例正在逐年增多,而G80在遇到這種指令時(shí)可說是如魚得水,與4D一樣不會(huì)有任何效能損失,指令轉(zhuǎn)換效率高并且對(duì)指令的適應(yīng)性非常好,這樣G80就將GPU Shader執(zhí)行效率提升到了新的境界!

    MIMD架構(gòu)的劣勢
 
    G80的架構(gòu)聽起來很完美,但也存在不可忽視的缺點(diǎn):根據(jù)前面的分析可以得知,4個(gè)1D標(biāo)量ALU和1個(gè)4D矢量ALU的運(yùn)算能力是相當(dāng)?shù)?,但是前者需?個(gè)指令發(fā)射端和4個(gè)控制單元,而后者只需要1個(gè),如此一來MIMD架構(gòu)所占用的晶體管數(shù)將遠(yuǎn)大于SIMD架構(gòu)!

    所以AMD的SIMD架構(gòu)可以用較少的晶體管造出龐大數(shù)量的流處理器、擁有恐怖的理論浮點(diǎn)運(yùn)算能力;而NVIDIA的MIMD架構(gòu)必須使用更多的晶體管制造出看似比較少的流處理器,理論浮點(diǎn)運(yùn)算能力相差很遠(yuǎn)。雙方走的都是極端路線,AMD以數(shù)量彌補(bǔ)效率的不足,而NVIDIA以效率彌補(bǔ)數(shù)量的劣勢。

第二章/第十節(jié) 真正的并行計(jì)算架構(gòu):GT200只為計(jì)算優(yōu)化

    G80的MIMD架構(gòu)開了一個(gè)好頭,128個(gè)流處理器雖然聽起來雖然沒有AMD 320個(gè)那么多,但這些流處理器是可以媲美真正的CPU核心,在執(zhí)行任何指令時(shí)都能發(fā)揮出接近理論值的性能,這樣高效率的核心如果只是用來玩游戲豈不太可惜了?

    于是在游戲市場大獲全勝的NVIDIA并沒有止步于此,而是將目光放在了更長遠(yuǎn)的高性能計(jì)算領(lǐng)域,一邊著手開發(fā)基于GPU計(jì)算的應(yīng)用程序中間件,幫助程序員以更高效的方式開發(fā)基于GPU硬件加速的軟件,另一方面在G80的基礎(chǔ)上繼續(xù)優(yōu)化核心架構(gòu),將MIMD架構(gòu)高效率的優(yōu)勢發(fā)揮到極致!

    GT200核心:真正的并行計(jì)算架構(gòu)

    G80依然只是為DX10 3D渲染而設(shè)計(jì)的,雖然MIMD架構(gòu)本身能夠勝任并行數(shù)據(jù)計(jì)算的需要,但NVIDIA發(fā)現(xiàn)圖形架構(gòu)還有繼續(xù)改進(jìn)的余地,只要在核心內(nèi)部設(shè)計(jì)全新的控制模塊,并對(duì)微架構(gòu)進(jìn)行專門的優(yōu)化,就能將GPU的圖形架構(gòu)改造成更加適合非圖形領(lǐng)域的并行數(shù)據(jù)處理架構(gòu)。

開創(chuàng)視覺計(jì)算帝國GTX280/260權(quán)威評(píng)測

    第一代統(tǒng)一渲染架構(gòu)的主要目的是把原本像素著色、頂點(diǎn)著色以及新增的幾何著色,統(tǒng)一交給流處理器來處理。而NVIDIA的GT200核心則被稱為第二代統(tǒng)一渲染架構(gòu),其主要含義就是將圖形處理架構(gòu)和并行計(jì)算架構(gòu)完美的結(jié)合起來,成為一顆真正意義上的通用處理器,超越圖形處理器的概念!

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

    GT200相對(duì)于G80,不止是把流處理器數(shù)量從128個(gè)擴(kuò)充到240個(gè)這么簡單,其實(shí)最關(guān)鍵之處是對(duì)TPC(線程處理器簇)和SM(流處理器簇)的改進(jìn):

    新增Atomic原子操作:透過原子操作,硬?;蟮木€程操作管理將更加有序和具體,這也就意味著像素或者其他類型如通用計(jì)算應(yīng)用的Thread的生成、仲裁、泵送、內(nèi)存位置確定和執(zhí)行過程都將變得更加精確和高效,Atomic單元和原子操作的引入也為未來NVIDIA構(gòu)架最終實(shí)現(xiàn)并行化設(shè)計(jì)起到了關(guān)鍵的先導(dǎo)作用。

    每個(gè)SM可執(zhí)行線程上限提升:G80/G92核心每個(gè)SM(即不可拆分的8核心流處理器)最多可執(zhí)行768條線程,而GTX200核心的每個(gè)SM提升至1024條,而且GTX200擁有更多的SM,芯片實(shí)力達(dá)到原來的2.5倍!

開創(chuàng)視覺計(jì)算帝國GTX280/260權(quán)威評(píng)測

    每個(gè)SM的指令寄存器翻倍:GTX200與G80核心在SM結(jié)構(gòu)上基本相同的,但功能有所提升,在執(zhí)行線程數(shù)增多的同時(shí),NVIDIA還將每個(gè)SM中間的Local Memory容量翻倍(從16K到32K)。Local Memory用于存儲(chǔ)SM即將執(zhí)行的上千條指令,容量增大意味著可以存儲(chǔ)更多的指令、超長的指令、或是各種復(fù)雜的混合式指令,這對(duì)于提高SM的執(zhí)行效能大有裨益。

    DX10游戲會(huì)越來越多的使用復(fù)雜的混合式Shader指令,一旦排隊(duì)中的超長指令溢出或者在N個(gè)周期內(nèi)都排不上隊(duì),那么就會(huì)造成效率下降的情況,此時(shí)雙倍寄存器容量的優(yōu)勢就體現(xiàn)出來了。由于Local Memory并不會(huì)消耗太多晶體管,因此將其容量翻倍是很合算的。

    紋理單元數(shù)量提升,比率下降,達(dá)到了ATI當(dāng)年鼓吹的3:1水平

開創(chuàng)視覺計(jì)算帝國GTX280/260權(quán)威評(píng)測

    其它改進(jìn)還有:幾何著色性能提升,提高雙指令執(zhí)行(Dual-Issue)效率,達(dá)到93%-94%之多,支持雙精度64Bit浮點(diǎn)運(yùn)算,運(yùn)算能力為單精度的1/8。

    綜合來看,GT200除了流處理器、紋理單元、光柵單元這些硬貨數(shù)量增多對(duì)游戲性能大有裨益以外,其它細(xì)節(jié)部分的優(yōu)化跟游戲關(guān)系不大。因?yàn)镚T200是為并行計(jì)算而設(shè)計(jì)的,從GT200開始,GPU計(jì)算變得更加實(shí)用和普及,NVIDIA的Tesla開始進(jìn)入科學(xué)實(shí)驗(yàn)室,并殺進(jìn)超級(jí)計(jì)算機(jī)市場。

第二章/第十一節(jié) DX11與并行計(jì)算的完美結(jié)合:GF100/110的野心

    隨著Tesla在高性能計(jì)算領(lǐng)域日漸深入人心,NVIDIA也在與科研工作者們進(jìn)行深入的溝通,傾聽一線用戶的需求,以便在下代GPU核心中做出相應(yīng)的優(yōu)化改進(jìn)。當(dāng)時(shí)用戶最大的需求有兩點(diǎn):第一,科學(xué)家和超級(jí)計(jì)算只看重64bit雙精度浮點(diǎn)運(yùn)算能力,GT200性能太低,只有單精度的1/8;第二:企業(yè)級(jí)用戶對(duì)穩(wěn)定性要求更高,傳統(tǒng)的顯卡不支持顯存ECC(錯(cuò)誤檢查和糾正),計(jì)算出錯(cuò)后效率較低。

    這就是下一代GPU的設(shè)計(jì)目標(biāo)。而且,這次GF100不僅要滿足并行計(jì)算的需求,還要兼顧DX11游戲性能,針對(duì)DX11新增的曲面細(xì)分、幾何運(yùn)算做出相應(yīng)的改進(jìn),時(shí)間緊、任務(wù)重、壓力大。

    過于追求完美往往結(jié)果就會(huì)不完美,NVIDIA在GPU架構(gòu)設(shè)計(jì)部分做到了近乎完美,但是在芯片制造端掉了鏈子——由于GPU核心太大,臺(tái)積電40nm工藝還不夠成熟,導(dǎo)致GF100核心良率低下,沒能達(dá)到設(shè)計(jì)預(yù)期,最終的產(chǎn)品不僅功耗發(fā)熱很大,而且規(guī)格不完整。所以雖然當(dāng)時(shí)GTX480顯卡的評(píng)價(jià)不是很高,但GF100核心的架構(gòu)極其優(yōu)秀的。等到工藝成熟之后的GF110核心以及GTX580顯卡,就毫無疑問的站在了游戲與計(jì)算的巔峰!

    GF100是“四核心”設(shè)計(jì):4個(gè)光柵化引擎

GF100/110可以看作是四核心設(shè)計(jì)

    如果我們把Cayman看作是雙核心的設(shè)計(jì),那GF100就是四核心的設(shè)計(jì),它擁有四個(gè)GPC(圖形處理器集群)模塊,每個(gè)GPC都有各自的光柵化引擎(Raster Engine),而在以往都是整顆GPU共享一個(gè)Raster Engine。

    GF100擁有16個(gè)多形體引擎

    GF100與GT200最大的不同其實(shí)就是PolyMorph Engine,譯為多形體引擎。每個(gè)SM都擁有一個(gè)多形體引擎,GF100核心總共有多達(dá)16個(gè)。那么多形體引擎是干什么用的呢?為什么要設(shè)計(jì)如此之多?

    為什么要這么多的多形體引擎?

    之前的GPU架構(gòu)一直都使用單一的前端控制模塊來獲取、匯集并對(duì)三角形實(shí)現(xiàn)光柵化。無論GPU有多少個(gè)流處理器,這種固定的流水線所實(shí)現(xiàn)的性能都是相同的。但應(yīng)用程序的工作負(fù)荷卻是不同的,所以這種流水線通常會(huì)導(dǎo)致瓶頸出現(xiàn),流處理器資源未能得到充分利用。

    實(shí)現(xiàn)光柵化并行處理的同時(shí)還要保持API的順序是非常困難的,這種難度阻礙了這一領(lǐng)域的重大創(chuàng)新。雖然單個(gè)前端控制單元的設(shè)計(jì)在過去的GPU中曾有過輝煌的歷史,但是隨著對(duì)幾何復(fù)雜度的需求不斷增長,它現(xiàn)在已經(jīng)變成了一個(gè)主要障礙。

    Tessellation的使用從根本上改變了GPU圖形負(fù)荷的平衡,該技術(shù)可以將特定幀中的三角形密度增加數(shù)十倍,給設(shè)置于光柵化單元等串行工作的資源帶來了巨大壓力。為了保持較高的Tessellation性能,有必要重新平衡圖形流水線。

    為了便于實(shí)現(xiàn)較高的三角形速率,NVIDIA設(shè)計(jì)了一種叫做“PolyMorph”的可擴(kuò)展幾何引擎。每16個(gè)PolyMorph引擎均擁有自己專用的頂點(diǎn)拾取單元以及鑲嵌器,從而極大地提升了幾何性能。與之搭配的4個(gè)并行光柵化引擎,它們?cè)诿總€(gè)時(shí)鐘周期內(nèi)可設(shè)置最多4個(gè)三角形。同時(shí),它們還能夠在三角形獲取、Tessellation、以及光柵化等方面實(shí)現(xiàn)巨大性能突破。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

這是Cayman的圖形引擎,是雙核心設(shè)計(jì)

    AMD的Cayman核心是不分光柵化引擎和多形體引擎的,都可以算作是雙核心設(shè)計(jì),GF100與Cayman相比,光柵化引擎是4:1,多形體引擎(包括曲面細(xì)分單元)是16:2,GF100的幾何圖形性能有多么強(qiáng)大已經(jīng)可以想象。

    當(dāng)NVIDIA的工程師通過計(jì)算機(jī)模擬測試得知幾何引擎將會(huì)成為DX11新的瓶頸之后,毫不遲疑的選擇了將單個(gè)控制模塊打散,重新設(shè)計(jì)了多形體引擎和光柵化引擎,并分散至每組SM或每個(gè)GPC之中,從而大幅提升了幾何性能,徹底消除了瓶頸。

    GF100流處理器部分的改進(jìn)

    每一個(gè)CUDA核心都擁有一個(gè)完全流水線化的整數(shù)算術(shù)邏輯單元(ALU)以及浮點(diǎn)運(yùn)算單元(FPU)。GF100采用了最新的IEEE754-2008浮點(diǎn)標(biāo)準(zhǔn),2008標(biāo)準(zhǔn)的主要改進(jìn)就是支持多種類型的舍入算法。新標(biāo)準(zhǔn)可以只在最終獲取數(shù)據(jù)時(shí)進(jìn)行四舍五入,而以往的標(biāo)準(zhǔn)是每進(jìn)行一步運(yùn)算都要四舍五入一次,最后會(huì)產(chǎn)生較大的誤差。

    GF100能夠?yàn)?2bit單精度和64bit雙精度運(yùn)算提供FMA(Fused Multiply-Add,積和熔加)指令,而GT200只在64bit時(shí)才能提供。FMA不僅適用于高性能計(jì)算領(lǐng)域,事實(shí)上在渲染緊密重疊的三角形時(shí),新的FMA算法能夠最大限度的減少渲染誤差。

    ATI所有的流處理器在執(zhí)行整數(shù)型加、乘指令時(shí)僅支持24bit精度,而NVIDIA CUDA核心支持所有整數(shù)指令全32位精度,符合標(biāo)準(zhǔn)編程語言的基本要求。整數(shù)ALU還經(jīng)過了優(yōu)化,可有效支持64位以及更高精度的運(yùn)算,這一點(diǎn)是對(duì)手無法比擬的。

    GF100擁有雙Warp調(diào)度器可選出兩個(gè)Warp,從每個(gè)Warp發(fā)出一條指令到16個(gè)核心、16個(gè)載入/存儲(chǔ)單元或4個(gè)特殊功能單元。因?yàn)閃arp是獨(dú)立執(zhí)行的,所以GF100的調(diào)度器無需檢查指令流內(nèi)部的依存關(guān)系。通過利用這種優(yōu)秀的雙指令執(zhí)行(Dual-issue)模式,GF100能夠?qū)崿F(xiàn)接近峰值的硬件性能。

    GF100首次引入一級(jí)緩存與動(dòng)態(tài)共享緩存

    GF100核心擁有很多種類的緩存,他們的用途不盡相同,其中一級(jí)緩存、共享緩存和紋理緩存位于SM內(nèi)部,二級(jí)緩存則是獨(dú)立的一塊,與光柵單元及顯存控制器相連。

    以往的GPU都是沒有一級(jí)緩存的,只有一級(jí)紋理緩存,因?yàn)檫@些緩存無法在通用計(jì)算中用于存儲(chǔ)計(jì)算數(shù)據(jù),只能用于在紋理采樣時(shí)暫存紋理。而在GF100當(dāng)中,NVIDIA首次引入真正的一級(jí)高速緩存,而且還可被動(dòng)態(tài)的劃分為共享緩存。

    在GF100 GPU中,每個(gè)SM除了擁有專用的紋理緩存外,還擁有64KB容量的片上緩存,這部分緩存可配置為16KB的一級(jí)緩存+48KB共享緩存,或者是48KB一級(jí)緩存+16KB共享緩存。這種劃分方式完全是動(dòng)態(tài)執(zhí)行的,一個(gè)時(shí)鐘周期之后可自動(dòng)根據(jù)任務(wù)需要即時(shí)切換而不需要程序主動(dòng)干預(yù)。

    一級(jí)緩存與共享緩存是互補(bǔ)的,共享緩存能夠?yàn)槊鞔_界定存取數(shù)據(jù)的算法提升存取速度,而一級(jí)緩存則能夠?yàn)橐恍┎灰?guī)則的算法提升存儲(chǔ)器存取速度。在這些不規(guī)則算法中,事先并不知道數(shù)據(jù)地址。

    對(duì)于圖形渲染來說,重復(fù)或者固定的數(shù)據(jù)比較多,因此一般是劃分48KB為共享緩存,當(dāng)然剩下的16KB一級(jí)緩存也不是完全沒用,它可以充當(dāng)寄存器溢出的緩沖區(qū),讓寄存器能夠?qū)崿F(xiàn)不俗的性能提升。而在并行計(jì)算之中,一級(jí)緩存與共享緩存同樣重要,它們可以讓同一個(gè)線程塊中的線程能夠互相協(xié)作,從而促進(jìn)了片上數(shù)據(jù)廣泛的重復(fù)利用并減少了片外的通信量。共享存儲(chǔ)器是使許多高性能CUDA應(yīng)用程序成為可能的重要促成因素。

    GF100擁有一個(gè)768KB容量統(tǒng)一的二級(jí)高速緩存,該緩存可以為所有載入、存儲(chǔ)以及紋理請(qǐng)求提供服務(wù)。二級(jí)緩存可在整個(gè)GPU中提供高效、高速的數(shù)據(jù)共享。物理效果、光線追蹤以及稀疏數(shù)據(jù)結(jié)構(gòu)等事先不知道數(shù)據(jù)地址的算法在硬件高速緩存上的運(yùn)行優(yōu)勢尤為明顯。后期處理過濾器需要多個(gè)SM才能讀取相同的數(shù)據(jù),該過濾器與存儲(chǔ)器之間的距離更短,從而提升了帶寬效率。

    統(tǒng)一的共享式緩存比單獨(dú)的緩存效率更高。在獨(dú)享式緩存設(shè)計(jì)中,即使同一個(gè)緩存被多個(gè)指令預(yù)訂,它也無法使用其它緩存中未貼圖的部分。高速緩存的利用率將遠(yuǎn)低于它的理論帶寬。GF100的統(tǒng)一共享式二級(jí)高速緩存可在不同請(qǐng)求之間動(dòng)態(tài)地平衡負(fù)載,從而充分地利用緩存。二級(jí)高速緩存取代了之前GPU中的二級(jí)紋理緩存、ROP緩存以及片上FIFO。

GF100的緩存架構(gòu)讓各流水線之間可以高效地通信,減少了顯存讀寫操作

    統(tǒng)一的高速緩存還能夠確保存儲(chǔ)器按照程序的順序執(zhí)行存取指令。當(dāng)讀、寫路徑分離(例如一個(gè)只讀紋理路徑以及一個(gè)只寫ROP路徑)時(shí),可能會(huì)出現(xiàn)先寫后讀的危險(xiǎn)。一個(gè)統(tǒng)一的讀/寫路徑能夠確保程序的正確運(yùn)行,同時(shí)也是讓NVIDIA GPU能夠支持通用C/C++程序的重要因素。

    與只讀的GT200二級(jí)緩存相比,GF100的二級(jí)高速緩存既能讀又能寫,
而且是完全一致的。NVIDIA采用了一種優(yōu)先算法來清除二級(jí)緩存中的數(shù)據(jù),這種算法包含了各種檢查,可幫助確保所需的數(shù)據(jù)能夠駐留在高速緩存當(dāng)中。

第二章/第十二節(jié) HD7970華麗登場:曲面細(xì)分性能大幅提升

    之所以要對(duì)NVIDIA的GF100/110核心進(jìn)行重點(diǎn)介紹,是因?yàn)樗且粋€(gè)很好的參照物,接下來要介紹的Tahiti核心很多方面都會(huì)與GF100進(jìn)行對(duì)比,看看AMD所謂的GCN(次世代圖形核心)到底有多么先進(jìn)。

    Tahiti的核心架構(gòu)圖

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

    這是AMD官方公布的Tahiti核心架構(gòu)圖,第一眼看上去,我們就會(huì)發(fā)現(xiàn)他與以往所有的AMD GPU架構(gòu)有了明顯區(qū)別,無論圖形引擎部分還是流處理器部分都有了天翻地覆的變化,如果沒有右側(cè)熟悉的UVD、CrossFire、Eyefinity等功能模塊,很難相信這是一顆AMD的GPU。

    先看看最上面的圖形引擎部分

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

Tahiti的圖形引擎部分

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

Cayman的圖形引擎部分

    這一部分Tahiti幾乎沒有什么變化,依然是雙圖形引擎的設(shè)計(jì),幾何著色指令分配器、頂點(diǎn)著色指令分配器、曲面細(xì)分單元、光柵器、分層消影器都是雙份的設(shè)計(jì)。

    毫不起眼但意義重大的改進(jìn):雙ACE

    除此之外,還有一個(gè)毫不起眼但是意義重大的改進(jìn),那就是在圖形引擎上方加入了兩個(gè)ACE(Asynchronous Compute Engine,異步計(jì)算引擎),這兩個(gè)引擎直接與指令處理器、幾何引擎及全局?jǐn)?shù)據(jù)緩存相連,作用是管理GPU的任務(wù)隊(duì)列,將線程分門別類的分發(fā)給流處理器。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

    ACE將會(huì)充當(dāng)指令處理器的角色用于運(yùn)算操作,而ACE的主要作用就是接受任務(wù)并將其下遣分配給流處理器(主要是分配的過程)。全新架構(gòu)強(qiáng)化了多任務(wù)的并行處理設(shè)計(jì),資源分配、上下文切換以及任務(wù)優(yōu)先級(jí)決策等等。ACE的直接作用就是新架構(gòu)擁有了一定程度的亂序執(zhí)行能力,雖然嚴(yán)格意義上新架構(gòu)依然是順序執(zhí)行架構(gòu),一個(gè)完整線程中的指令執(zhí)行順序不能被打亂,但是ACE可以做到對(duì)不同的任務(wù)進(jìn)行優(yōu)化和排序,劃分任務(wù)執(zhí)行的優(yōu)先級(jí)別,進(jìn)而優(yōu)化資源。從本質(zhì)上來說,這與很多CPU(比如Atom、ARM A8等等)處理多任務(wù)的方式并沒有什么不同。

    而且ACE的加入大幅提升了Tahiti的幾何性能,并且使得通用計(jì)算時(shí)的指令分配更加有序和并行化,緩存使用率和命中率更高。

    有針對(duì)性的強(qiáng)化曲面細(xì)分單元

    單從數(shù)量上來看,Tahiti明顯不如GF100的4個(gè)光柵化引擎(光柵器+分層消影器)以及8個(gè)多形體引擎(幾何/頂點(diǎn)分配器及曲面細(xì)分單元等)。不過AMD有針對(duì)性的強(qiáng)化了曲面細(xì)分單元,通過提高頂點(diǎn)的復(fù)用率、增強(qiáng)片外緩存命中率、以及更大參數(shù)高速緩存的配合下,HD7970在所有級(jí)別的曲面細(xì)分環(huán)境下都可以達(dá)到4倍于HD6970的性能:

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

    此前我們介紹過,HD6970的曲面細(xì)分性能是HD6870的兩倍、HD5870的三倍。通過AMD的理論數(shù)據(jù)來看,Tahiti的曲面細(xì)分性能應(yīng)該達(dá)到甚至超越了GF100/110。

    看得出來,AMD的Tahiti在圖形引擎方面依然沿用Cayman的設(shè)計(jì),從Cypress到Barts再到Cayman,AMD穩(wěn)扎穩(wěn)打的對(duì)圖形引擎進(jìn)行優(yōu)化與改進(jìn),AMD認(rèn)為現(xiàn)有的雙圖形引擎設(shè)計(jì)足以滿足流處理器的需要,因此只對(duì)備受詬病的曲面細(xì)分模塊進(jìn)行了改良,如此有針對(duì)性的設(shè)計(jì)算是亡羊補(bǔ)牢、為時(shí)不晚。

第二章/第十三節(jié) GCN架構(gòu)的精髓:流處理器完全重新設(shè)計(jì)

    看了上頁圖形引擎部分的介紹,很多人可能會(huì)失望——基本沒動(dòng)嘛,還說什么次世代圖形核心?別著急,好戲在后頭。我們知道AMD歷代GPU的瓶頸除了曲面細(xì)分以外,其實(shí)最重要的是5D/4D VLIW架構(gòu)的效率問題。現(xiàn)在Tahiti的GCN架構(gòu)就是要解決這個(gè)問題,它的流處理器結(jié)構(gòu)已經(jīng)面目全非了。

    Tahiti徹底拋棄VLIW架構(gòu)

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

    通過Tahiti的整體架構(gòu)圖我們看到,傳統(tǒng)的SIMD流處理器陣列消失了,取而代之的是GCN陣列,Tahiti總計(jì)擁有2048個(gè)流處理器,這樣每個(gè)GCN陣列里面擁有64個(gè)流處理器。現(xiàn)在來看看GCN陣列的微觀結(jié)構(gòu)。

    GCN與GF100的SM何其相似

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

Tahiti的GCN陣列微觀結(jié)構(gòu)

    GCN陣列里有4組SIMD單元,每組SIMD單元里面包括16個(gè)流處理器、或者說是標(biāo)量運(yùn)算器。GCN架構(gòu)已經(jīng)完全拋棄了此前5D/4D流處理器VLIW超長指令架構(gòu)的限制,不存在5D/4D指令打包-派發(fā)-解包的問題,所有流處理器以16個(gè)為一組SIMD陣列完成指令調(diào)度。簡單來說,以往是指令集并行,而現(xiàn)在是線程級(jí)并行。

GF100的SM(流處理器簇)微觀結(jié)構(gòu)

    可以這么理解,一個(gè)GCN陣列與GF100當(dāng)中的一組SM相當(dāng),GF100的一組SM當(dāng)中有4組共計(jì)32個(gè)流處理器,而Tahiti的一組GCN當(dāng)中有4組共計(jì)64個(gè)流處理器。

    緩存部分

    每個(gè)SIMD-16單元都擁有64KB向量寄存器

    每組GCN陣列擁有64KB的本地?cái)?shù)據(jù)共享緩存,還有16KB的一級(jí)緩存

    每組GCN陣列有一個(gè)標(biāo)量運(yùn)算單元,用于執(zhí)行整數(shù)指令、媒體指令和浮點(diǎn)原子操作,這個(gè)標(biāo)量運(yùn)算單元擁有自己的4KB寄存器

    而GF100的緩存設(shè)計(jì)得更加靈活,每組SM里面擁有總計(jì)64KB的共享緩存+一級(jí)緩存,這64KB緩存可以根據(jù)實(shí)際運(yùn)算量來動(dòng)態(tài)調(diào)整,如果把16KB分配給一級(jí)緩存的話,那剩下的48KB就是共享緩存,反之亦然。

    一般來說,進(jìn)行圖形渲染時(shí)需要共享緩存比較多,而并行計(jì)算時(shí)則會(huì)用到更多的一級(jí)緩存。GF100這種靈活的緩存分配機(jī)制更適合做并行計(jì)算,而GCN架構(gòu)更大的共享緩存會(huì)有更好的圖形渲染性能,并行計(jì)算則會(huì)稍遜一籌。

    更多的線程調(diào)度

    從緩存部分的設(shè)計(jì)來看,雖然GCN擁有更大的緩存容量,但在并行計(jì)算領(lǐng)域經(jīng)營多年的NVIDIA顯然要棋高一手。

    從線程級(jí)別來看,GCN與SM是不可分割的最小單元,GCN一次可以執(zhí)行64個(gè)線程,而SM是48個(gè)(其實(shí)就是流處理器的數(shù)量)。

    從多線程執(zhí)行上來看,GCN可以同時(shí)執(zhí)行4個(gè)硬件線程,而SM是雙線程調(diào)度器的設(shè)計(jì)(參見架構(gòu)圖)。

    如此來看,GCN架構(gòu)的多線程性能會(huì)更好一些。

    小結(jié):AMD GCN借鑒NVIDIA SM架構(gòu)

    在流處理器部分,終于不用費(fèi)勁的把AMD和NVIDIA GPU架構(gòu)分開介紹了,因?yàn)镚CN與SM已經(jīng)沒有本質(zhì)區(qū)別。剩下的只是緩存容量、流處理器簇的數(shù)量、線程調(diào)度機(jī)制的問題,雙方根據(jù)實(shí)際應(yīng)用自然會(huì)有不同的判斷,自家的前后兩代產(chǎn)品也會(huì)對(duì)這些數(shù)量和排列組合進(jìn)行微調(diào)。

    AMD向NVIDIA的架構(gòu)靠攏,GCN架構(gòu)改動(dòng)之大,前所未有!

第二章/第十四節(jié) GCN架構(gòu)的緩存:和GF100異曲同工

    在流處理器部分,我們看到Tahiti與GF100如此相似,那么接下來看到緩存設(shè)計(jì)時(shí),您可能會(huì)要驚呼了……看圖說話:

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

Tahiti的緩存結(jié)構(gòu)

    Tahiti與GF100緩存的相同之處

    先說最直觀的,Tahiti有一個(gè)容量為768KB二級(jí)緩存,這個(gè)容量與GF100的L2完全相同,都可以進(jìn)行讀寫操作。

    上頁說過,Tahiti的每組GCN陣列擁有16KB的一級(jí)緩存,GF100的SM里面也有16KB的一級(jí)緩存;每組GCN擁有64KB的本地?cái)?shù)據(jù)共享緩存,GF100的每組SM擁有48KB。

    Tahiti總共擁有32個(gè)GCN陣列,所以一級(jí)緩存共有512KB,而GF100擁有16個(gè)SM陣列,一級(jí)緩存共有256KB。但別忘了GF100的L1可以是48KB,這樣總共就是768KB了。

    Tahiti與GF100緩存的不同之處

    雖然Tahiti的緩存層級(jí)設(shè)定與GF100非常相似,但區(qū)別也是有的:

    Tahiti的每組GCN需要將16KB一級(jí)緩存當(dāng)作紋理緩存使用,而GF100的每組SM當(dāng)中設(shè)有專用的12KB紋理緩存;

    一般來說非圖形渲染不需要用到紋理緩存,而圖形渲染時(shí)又不會(huì)用到一級(jí)緩存,所以Tahiti將一級(jí)緩存與紋理緩存合并的設(shè)計(jì)更優(yōu);但NVIDIA專門設(shè)計(jì)紋理緩存也不是沒有道理,當(dāng)GPU既渲染圖形又要做計(jì)算時(shí),分離式設(shè)計(jì)的效率會(huì)更高,比如PhysX游戲……A卡不支持所以AMD不會(huì)考慮這種情況。

    Tahiti整個(gè)GPU擁有一個(gè)32KB的全局?jǐn)?shù)據(jù)共享緩存,這個(gè)是沿用了Cayman的設(shè)計(jì),但容量減半了,而GF100沒有這種緩存。全局?jǐn)?shù)據(jù)共享緩存主要用于不同GCN陣列間線程的數(shù)據(jù)交換,這塊緩存只對(duì)編譯器可見,所以使用率較低,容量減半相信也是處于這個(gè)原因。

第二章/第十五節(jié) Tihiti其他方面的改進(jìn):AMD真是個(gè)激進(jìn)派

    最核心的流處理器和緩存部分介紹完畢,剩下的功能模塊就簡單了:

    AMD頭一次使用384bit顯存控制器

    我們先來回顧一下顯存控制器的發(fā)展史:

    NVIDIA:G80(384bit)-G92(256bit)-GT200(512bit)-GF100(384bit)

    AMD:R600(512bit)-RV670(256bit)-RV770(256bit)-Cypress(256bit)-Cayman(256bit)

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

    NVIDIA使用過兩次384bit顯存控制器,而AMD自R600 512bit兵敗之后一直堅(jiān)守256bit的設(shè)計(jì),這次Tahiti是頭一次使用384bit這種折衷的位寬。

    AMD作為GDDR5顯存標(biāo)準(zhǔn)的制定者之一,對(duì)于顯存特性吃得比較透,因此同樣的顯存顆粒,A卡的顯存頻率一直都遠(yuǎn)高于N卡。此次AMD在位寬上追平NVIDIA,再加上更高的頻率,顯存帶寬達(dá)到了264GB/s,基本上不會(huì)有什么瓶頸了。

    光柵單元數(shù)量不變

    Tahiti配備了32個(gè)ROPs,數(shù)量與Cayman,每個(gè)周期能完成32個(gè)色彩處理和128個(gè)Z/Stencil 處理,不過得益于有更高的顯存帶寬,在實(shí)際游戲中的性能要比理論值一樣的Cayman快50%,比如抗鋸齒方面。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

率先支持DX11.1 API

    AMD一直都是激進(jìn)派,憑借與微軟的深度合作,自DX10以后AMD總是能夠第一時(shí)間發(fā)布支持最新API的顯卡,DX10.1/DX11還有現(xiàn)在的DX11都是如此。關(guān)于DX11.1的改進(jìn)細(xì)節(jié),下文有專門章節(jié)陳述。

● PCI-E 3.0總線解析

    PCI-E 3.0規(guī)范將數(shù)據(jù)傳輸率提升到8GHz|8GT/s(最初也預(yù)想過10GHz),并保持了對(duì)PCI-E 2.x/1.x的向下兼容,繼續(xù)支持2.5GHz、5GHz信號(hào)機(jī)制?;诖?,PCI-E 3.0架構(gòu)單信道(x1)單向帶寬即可接近1GB/s,十六信道(x16)雙向帶寬更是可達(dá)32GB/s。

    PCI-E 3.0同時(shí)還特別增加了128b/130b解碼機(jī)制,可以確保幾乎100%的傳輸效率,相比此前版本的8b/10b機(jī)制提升了25%,從而促成了傳輸帶寬的翻番,延續(xù)了PCI-E規(guī)范的一貫傳統(tǒng)。

    新規(guī)范在信號(hào)和軟件層的其他增強(qiáng)之處還有數(shù)據(jù)復(fù)用指示、原子操作、動(dòng)態(tài)電源調(diào)整機(jī)制、延遲容許報(bào)告、寬松傳輸排序、基地址寄存器(BAR)大小調(diào)整、I/O頁面錯(cuò)誤等等,從而全方位提升平臺(tái)效率、軟件模型彈性、架構(gòu)伸縮性。

    至于PCI-E 3.0總線的意義,現(xiàn)在看來有些超前。目前只有Intel的X79+i7-3960X平臺(tái)才會(huì)提供PCI-E3.0支持。根據(jù)經(jīng)驗(yàn)和測試,PCI-E 3.0翻倍的帶寬并不會(huì)給顯卡帶來性能提升,其主要意義還是進(jìn)一步對(duì)于多卡的支持。試想,如果PCI-E 3.0 X4都可以滿足HD7970的需求的話,那么現(xiàn)有的Z68(搭配IvyBridge處理器)就不會(huì)限制多路交火的性能表現(xiàn),而X79插8塊(如果主板有這么多插槽的話)HD7970做并行計(jì)算也不會(huì)因?yàn)榻涌趲挾a(chǎn)生性能瓶頸。

第二章/第十六節(jié) GCN架構(gòu)的真正意義:GPU計(jì)算效能大增

    最后,再來強(qiáng)調(diào)一下AMD拋棄5D/4D VLIW改用全新GCN架構(gòu)的意義

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

理想狀態(tài)下毫不相干的四組線程執(zhí)行情況

    在VLIW的理想情況下,4個(gè)線程分別各自獨(dú)立且毫不相關(guān),可以看到新架構(gòu)和VLIW的執(zhí)行情況和類似,理論上效率都是100%。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

非理想狀態(tài)下,條件相關(guān)線程延遲執(zhí)行

    但對(duì)于VLIW架構(gòu)來說,不理想的情況就是遇到相關(guān)的指令流,比如兩個(gè)綠色線程,前三個(gè)線程可在一個(gè)周期內(nèi)執(zhí)行,最下方的藍(lán)色只能獨(dú)立執(zhí)行。而對(duì)于新架構(gòu)來說,則不存在這樣的問題。也就是說,采用硬件調(diào)度之后,GCN和SIMD可以允許選擇不同的線程亂序執(zhí)行,這些線程可以來自同一任務(wù),也可以是不同任務(wù)。當(dāng)然,這種“亂序”也不是絕對(duì)的,基本的流程還是要遵守的,比如各個(gè)線程之間的指令必須按順序執(zhí)行,不能打亂也不能分割。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

    以上就是AMD官方提供的數(shù)據(jù),HD7970的理論運(yùn)算能力相比HD6970提升不過30%,但在GPU計(jì)算應(yīng)用當(dāng)中的性能提升相當(dāng)顯著,可達(dá)兩倍以上!尤其在AES加密解密算法中,速度達(dá)到了4倍以上,架構(gòu)的威力可見一斑!

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

HD7900會(huì)在WinZIP當(dāng)中有更好的加密壓縮解壓性能

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

高清視頻實(shí)時(shí)防抖處理

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

AMD在努力:支持GPU計(jì)算的軟件越來越多

    以往的VLIW架構(gòu)在并行任務(wù)處理方面處于劣勢,并且很依賴編譯器和API的支持,擴(kuò)展到OpenCL也受到很大限制。經(jīng)過硬件架構(gòu)的調(diào)整,新的GCN架構(gòu)在并行計(jì)算方面有了很大提高。編譯壓力減輕,硬件調(diào)度的加入使編譯器擺脫了調(diào)度任務(wù);其次是程序優(yōu)化和支持語言擴(kuò)充更見容易;最后是不用在生成VLIW指令和相關(guān)調(diào)度信息,新架構(gòu)最底層的ISA也更加簡單。

第二章/第十七節(jié) 浴火重生,新的開始新的期待

    從DX10時(shí)代開始,也就是ATI被AMD收購之后,AMD的GPU架構(gòu)一直都沒有大的改動(dòng)。從HD2000到HD6000,大家應(yīng)該會(huì)發(fā)現(xiàn)GPU流處理器部分的結(jié)構(gòu)沒有任何改動(dòng),區(qū)別只是規(guī)模而已。這次AMD能夠徹底拋棄沿用了5年之久的VLIW超長指令集架構(gòu),真的是讓人眼前一亮,真可謂是浪子回頭金不換。

圖形與計(jì)算那些事 AMD次世代架構(gòu)解析

對(duì)于AMD來說,這次真的是一次革命

    Tihiti的GPU架構(gòu)改得很徹底,換句話說就是AMD學(xué)得很快,NVIDIA花了5年時(shí)間循序漸進(jìn)的把G80進(jìn)化到了GF100的級(jí)別;而AMD只用了一年時(shí)間,就讓Tahiti達(dá)到甚至部分超越了GF100的水平,真是可喜可賀!

    但是AMD還有很長的路要走,硬件雖然很強(qiáng)大、全新的GCN架構(gòu)也掃清了效率低下障礙,但軟件和程序方面還需加把勁。讓AMD欣喜的是OpenCL API的發(fā)展速度比想象中的還要快,以至于NVIDIA打算部分開放CUDA接口??梢灶A(yù)見的是,未來更多的商業(yè)軟件將會(huì)直接使用OpenCL語言編寫,對(duì)于GPU實(shí)現(xiàn)無差別的硬件加速支持,最終比拼的還是架構(gòu)與效率,而不是誰支持的軟件更多一些。

第二章/第十八節(jié) 呼之欲出:南方群島全系列發(fā)售前瞻

    根據(jù)國外網(wǎng)站消息,所有Radeon HD 7700/7800/7900詳細(xì)規(guī)格和售價(jià)已經(jīng)全面曝光,其中雙芯的Radeon HD 7990售價(jià)高達(dá)849美元。

HD 7700/7800/7900南島規(guī)格全線曝光

    整體上由于采用了全新的設(shè)計(jì)架構(gòu),新的南方群島顯得性價(jià)比稍微偏低,不過在中低端市場AMD也拿出了只有139美元的Radeon HD 7750,另外AMD還將推出HD 6000系列的28nm版本,型號(hào)將被更改為HD 7000系列。

HD 7700/7800/7900南島規(guī)格全線曝光

    HD 7000系列顯卡包括New Zealand、Tahiti、Pitcairn、Cape Verde的11款產(chǎn)品,型號(hào)分別為Radeon HD 7990(6GB)、Radeon HD 7970(3GB)、Radeon HD 7950(3GB)、Radeon HD 7950(1.5GB)、Radeon HD 7890(1.5GB)、Radeon HD 7870(2GB)、Radeon HD 7850(2GB)、Radeon HD 7850(1GB)、Radeon HD 7790(1GB)、Radeon HD 7770(1GB)、Radeon HD 7750(1GB)。

HD 7700/7800/7900南島規(guī)格全線曝光

    其中Radeon HD 7990(6GB)、Radeon HD 7970(3GB)、Radeon HD 7950(3GB)、(1.5GB)、Radeon HD 7890(1.5GB)采用了Tahiti GPU,擁有384Bit顯存位寬。

    接下來的Radeon HD 7870(2GB)、Radeon HD 7850(2GB)、Radeon HD 7850(1GB)基于Pitcairn GPU,都配備了256Bit顯存位寬。而Radeon HD 7770(1GB)、Radeon HD 7750(1GB)則采用了Cape Verde GPU,只有128Bit的顯存位寬。

    除了剛剛發(fā)布的HD7970和1月26號(hào)發(fā)布的HD 7950(3GB),AMD將于2012年2月發(fā)布性能級(jí)別的Radeon HD 7870(2GB)、Radeon HD 7850(2GB)、Radeon HD 7770(1GB)、Radeon HD 7750(1GB)。

    而重量級(jí)的Radeon HD 7990將在3月12日正式發(fā)布,同時(shí)發(fā)布的還有Radeon HD 7950(1.5GB)、Radeon HD 7850(1GB)版本。最后兩款特殊的產(chǎn)品Radeon HD 7890(1.5GB)和Radeon HD 7790(1GB)分別基于Tahiti LE和Pitcairn LE,流處理器數(shù)量得到進(jìn)一步縮減,上市日期將在2012年第二季度。

第三章 南方群島應(yīng)用篇

第一節(jié) DDM Audio 技術(shù)解析

    HD5000系列的標(biāo)準(zhǔn)接口配置是雙Dual-Link DVI、DisplayPort、HDMI,其中兩個(gè)DL-DVI占據(jù)了4個(gè)顯示通道,DP和HDMI各一個(gè),這樣就把Eyefinity的6個(gè)通道都用完了。

    而HD7970的標(biāo)準(zhǔn)接口配置則是一個(gè)Dual-Link DVI、一個(gè)HDMI、兩個(gè)Mini-DP。外觀上是把一個(gè)Dual-Link DVI和DP替換成了兩個(gè)Mini-DP,實(shí)際上是將原來的DL-DVI做成了一路mDP輸出。樣做的好處就是,一片顯卡可以直接接駁任何類型的數(shù)字顯示設(shè)備而不需要轉(zhuǎn)接,另外讓三路獨(dú)立Audio輸出成為可能。這就是傳說中的DDM audio技術(shù)。

HD7970

上一代顯卡只能同時(shí)輸出一路音頻

    獨(dú)立數(shù)字多點(diǎn)音頻(Discrete Digital Multi-Point Audio),簡稱DDM Audio。 以前的GPU只支持單獨(dú)一條音頻流,因此在同時(shí)使用三臺(tái)集成音箱顯示器的時(shí)候,只會(huì)有一個(gè)發(fā)聲。  

HD7970

    新一代顯卡Radeon HD 7900則是第一款支持多頻音頻流同步獨(dú)立輸出的GPU,可以同時(shí)輸出三路獨(dú)立的數(shù)字音頻。

HD7970

每個(gè)音箱上都會(huì)有聲音,而且可以完全不同,遠(yuǎn)程視頻會(huì)議一卡搞定!

HD7970

    當(dāng)然了,DDM Audio技術(shù)支持音頻和視頻的綁定和同步切換,所有音頻和視頻都是完全無縫同步的。一部正在播放的視頻從一個(gè)顯示端切換到另一個(gè)顯示端,音頻信號(hào)智能遷移而無需手動(dòng)更改。

第三章/第二節(jié) 南方群島應(yīng)用篇:EYEFINITY“2.0”解析

HD7970

Eyefinity歷史回顧:

- 2009年9月,Eyefinity驚艷登場,震驚業(yè)內(nèi)。

- 2010年2月:催化劑10.2加入了交火系統(tǒng)對(duì)Eyefinity的支持。

- 2010年3月:催化劑10.3支持邊框補(bǔ)償、顯示器單獨(dú)色彩調(diào)整、多屏分組、改進(jìn)多屏配置切換。

- 2010年4月:六屏版Radeon HD 5870 Eyefinity 6發(fā)布。

- 2010年7月:催化劑10.7,交火系統(tǒng)支持垂直模式的Eyefinity,同時(shí)增強(qiáng)HydraVision。

- 2011年4月:催化劑11.4,配置界面改版。

- 2011年5月:催化劑11.5,HydraVision繼續(xù)增強(qiáng)。

    很顯然,Eyefinity的進(jìn)步是與催化劑驅(qū)動(dòng)息息相關(guān)的,未來也是。  

HD7970

    Eyefinity 2.0新特性:催化劑11.10就已經(jīng)支持的有新的多屏布局配置、彈性的邊框補(bǔ)償、16K×16K超高清分辨率。

HD7970

    催化劑11.12和明年催化劑12.1/12.2將會(huì)陸續(xù)支持的則有:Eyefinity+HD3D多屏立體技術(shù)、自定義分辨率(等待太久了!)、預(yù)設(shè)管理改進(jìn)、桌面和任務(wù)欄重新定位。

    最后一項(xiàng),之前三屏系統(tǒng)上桌面圖標(biāo)會(huì)停留在第一屏,任務(wù)欄則橫跨三個(gè)屏幕,看起來很費(fèi)勁,今后則會(huì)全部集中在中央屏幕上,就像單屏那樣。

第三章/第三節(jié) 南方群島應(yīng)用篇:HD3D技術(shù)解析

HD7970

    必須承認(rèn),NVIDIA是一家很有遠(yuǎn)見的公司,一年多前就研發(fā)成功的3D Vision立體顯示技術(shù),現(xiàn)在已經(jīng)成為整個(gè)IT業(yè)界的發(fā)展趨勢。但AMD的3D立體顯示技術(shù)從HD6000開始也獲得了長足的進(jìn)步,而在HD7000上已經(jīng)越來越成熟。

HD7970

    首先在硬件方面,只要能夠支持120Hz刷新率的輸出,就可以在PC上實(shí)現(xiàn)3D顯示技術(shù)。而想要在平板電視和投影儀上實(shí)現(xiàn)3D輸出、120Hz刷新率、1080p全高清的3D立體游戲,左右眼各有60Hz,都能達(dá)到60FPS的流暢幀率,就需要高帶寬的HDMI 1.4a標(biāo)準(zhǔn)的支持,上一代顯卡中HD6870/6850率先做到了,而HD7000更是不在話下。

HD7970

    DisplayPort 1.2 HBR2、HDMI 1.4a都有超高帶寬,單個(gè)接口即可滿足4K×4K分辨率輸出,顯示設(shè)備方面的支持不是問題,市面上主流的3D電視、投影儀,還有120Hz LCD或者雙面板LCD都能支持ATI顯卡,尤其是三星和LG都有多款型號(hào)早已上市。

HD7970

    支持AMD HD3D立體技術(shù)的游戲正在越來越多,現(xiàn)已超過600款,而且可以選擇第三方的iZ3D、DDD或者原生的HD3D等不同方案,其中原生的有:《塵埃3》、《戰(zhàn)地3》、《殺出重圍3:人類革命》、《兩個(gè)世界2》。

HD7970

    目前AMD的3D顯示技術(shù),無論效果、兼容性還是軟件支持度方面,都絲毫不差于3D Vision。無論是對(duì)于3D游戲的立體化,還是2D視頻的3D化,都得到了主流媒體播放器的支持,而且AMD的新一代UVD3引擎還能支持3D藍(lán)光硬解碼,可以說已經(jīng)相當(dāng)成熟了。

第三章/第四節(jié) 南方群島應(yīng)用篇:AMD APP 加速并行技術(shù)

HD7970

    CUDA是NVIDIA顯卡的一大賣點(diǎn),它能夠?qū)PU龐大的運(yùn)算能力釋放出來,對(duì)非3D游戲應(yīng)用軟件進(jìn)行加速,實(shí)現(xiàn)比純CPU運(yùn)算更快的效能。CUDA目前雖然有很多種類的軟件,但最主要的應(yīng)用還是集中在視頻編輯和轉(zhuǎn)碼方面。

HD7970

    Radeon HD 7900系列上的APP加速技術(shù)包括三個(gè)方面:獨(dú)立的硬件高清視頻加速引擎、增強(qiáng)的計(jì)算硬件和軟件、基于AMD APP SDK開發(fā)包的應(yīng)用生態(tài)系統(tǒng)。

HD7970

    AMD此番帶來了新的高清編碼技術(shù)“視頻編碼引擎”(VCE),其核心功能是一個(gè)多流硬件H.264高清編碼器,編碼速度甚至超過1080p@60FPS的播放速度,而且支持完全固定、混合計(jì)算兩種編碼模式。

    質(zhì)量方面支持4:2:0色彩取樣,針對(duì)游戲和視頻場景變化做出優(yōu)化,并且可以自行控制壓縮質(zhì)量。此外還支持音頻視頻復(fù)合,顯存輸入用于轉(zhuǎn)碼、視頻會(huì)議,GPU顯示引擎輸入用于無線顯示。

HD7970

    TotalMedia Theatre 5.2(簡稱TMT 5.2),特別針對(duì)AMD技術(shù)優(yōu)化,支持MVC編碼硬件加速(藍(lán)光3D節(jié)目)、MPEG-4 ASP UVD硬件加速解碼、基于AMD APP SDK重新編寫的OpenCL SimHD高清差值插件。

    TMT 5.2還進(jìn)行了新概念的重新設(shè)計(jì),包括Alpha混合用戶界面、本地與在線媒體管理、電影元數(shù)據(jù)搜索、DVD電影和視頻片段智能菜單、2D-3D實(shí)時(shí)轉(zhuǎn)換插件Sim3D等等。

HD7970

    WinZip 16.5,通過Corel、AMD的合作,針對(duì)A卡優(yōu)化,現(xiàn)在可以利用OpenCL進(jìn)行Deflate壓縮、Inflate解壓、AES加密的加速,并且能夠同時(shí)利用處理器、集成/獨(dú)立顯卡的資源。官方宣稱,APU使用集顯或獨(dú)顯的測試證明,WinZip 16.5 AES加密的速度提升了兩三倍。

HD7970

    AMD APP生態(tài)系統(tǒng):瀏覽器與插件、消費(fèi)級(jí)視頻編輯、辦公與地圖、流行媒體播放器。

HD7970

    還有新的媒體處理指令SAD(絕對(duì)差值和),這是多項(xiàng)關(guān)鍵視頻與圖像處理算法的關(guān)鍵操作,包括動(dòng)態(tài)監(jiān)測、姿態(tài)識(shí)別、食品與圖像搜索、深度提取、計(jì)算機(jī)視覺等等。

    Radeon HD 7900系列支持4×1 SAD、4×4 QSAD,每個(gè)時(shí)鐘周期可處理最多64個(gè)像素,其中Radeon HD 7970每秒鐘能處理18多萬億個(gè)像素。此外還有MQSAD,可以忽略背景像素、加速移動(dòng)物體的隔離。

HD7970

    Steady Video技術(shù)也將進(jìn)化為2.0版本,不過這里AMD只是介紹了基本原理,沒有公開新特性,據(jù)說支持QSAD硬件加速、隔行模式視頻、左右對(duì)比模式。

第三章/第五節(jié)  AMD再度領(lǐng)跑:DX11.1規(guī)范詳解

 一如其在DX10.1上的率先支持一樣,HD 7970的發(fā)布也讓AMD再一次在DX規(guī)格支持上獲得領(lǐng)先。DX11.1,相比目前廣泛應(yīng)用的DX11規(guī)范,它的升級(jí)能帶來什么樣的技術(shù)改變,需要什么樣的軟件平臺(tái),什么時(shí)候才有支持DX11.1的游戲或者應(yīng)用呢?

HD7970

GCN架構(gòu)圖中明確指示說支持“下一代圖形API”,也就是DX11.1了

● DX11.1升級(jí)了什么?

  從小數(shù)點(diǎn)后的步進(jìn)來看,DX11.1只是一次版本上的小步快跑而非大步飛躍,所以不會(huì)有什么激動(dòng)人心的功能變化,但是這不代表DX11.1沒有亮點(diǎn),相反DX11.1的看點(diǎn)還是挺多的。

  1.加入3D立體支持

  DX11發(fā)布后的這兩年,DX圖形技術(shù)沒啥變化,但是伴隨3D電影興起的3D游戲也火了起來,體驗(yàn)過3D游戲之后大多數(shù)人都會(huì)覺得很震撼(也有人覺得很暈),栩栩如生的感覺不再是“科幻”。DX11.1很重要的一點(diǎn)改進(jìn)就是增加了D3D 3D API,可以讓開發(fā)者通過D3D實(shí)現(xiàn)3D渲染。

HD7970

微軟提供通用3D立體顯示支持可謂DX11.1眾多新功能中最耀眼的一個(gè)了

  之所以這么說是因?yàn)槟壳皩?shí)現(xiàn)3D立體顯示的技術(shù)要么是部分繞過D3D API而使用四倍緩沖器(Quad Buffer)實(shí)現(xiàn)3D游戲或應(yīng)用,要么就是利用驅(qū)動(dòng)/中間件實(shí)現(xiàn)的。在DX11.1中,3D渲染可以通過新增的D3D API實(shí)現(xiàn),而且微軟的D3D 3D API并非排他性的,依然支持其他驅(qū)動(dòng)/中間件方案。換句話就是DX11.1之后,開發(fā)者多了一個(gè)實(shí)現(xiàn)3D的選擇。

  2.支持TBDR渲染

  TBDR(Tile Based Deferred Render,延遲渲染貼圖)也是DX11.1中新增的一個(gè)操作指令。它原本是Power VR公司使用的3D渲染技術(shù),主要用在智能手機(jī)以及平板、游戲機(jī)等設(shè)備上。與傳統(tǒng)z緩沖的渲染過程相比,TBDR不需要渲染不可見像素,這樣極大地減少了數(shù)量運(yùn)算量,非常適合移動(dòng)設(shè)備使用。

  這項(xiàng)技術(shù)對(duì)桌面圖形計(jì)算來說并沒有太大意義,只是DX11.1并不只會(huì)用在桌面顯卡上,還承載著微軟擴(kuò)張移動(dòng)領(lǐng)域疆土的希望,TBDR依然是DX11.1中的重要功能,低功耗設(shè)備的福音。

  3.TIR目標(biāo)獨(dú)立光柵化

  TIR(Target Independent Rasterization,目標(biāo)獨(dú)立光柵化)的功能要求有所不同,因?yàn)榍懊娴膬身?xiàng)技術(shù)只需升級(jí)DX11.1運(yùn)行時(shí)程序即可,而TIR卻需要更改硬件設(shè)計(jì),因此只有新一代顯卡才能支持,無法在原有顯卡上直接升級(jí)。

  Rasterization光柵化是圖像處理的后期過程,DX11.1支持目標(biāo)獨(dú)立光柵化,可以將原本CPU負(fù)責(zé)的工作完全轉(zhuǎn)移到GPU上,進(jìn)而提高D2D的抗鋸齒性能。

  4.支持雙精度浮點(diǎn)運(yùn)算

  雙精度浮點(diǎn)運(yùn)算(Double-precision shader functionality)或者叫FP64不僅在GPU計(jì)算上意義非凡,在圖形渲染中也大有用武之地。雖然DX11中其實(shí)已經(jīng)包含了FP64雙精度支持,但是功能有限,DX11.1中才真正實(shí)用化。

  5.圖形與視頻之間的操作性更靈活

  DX11.1強(qiáng)化了圖形、視頻等各種資源之間的操作靈活性,比如計(jì)算渲染器(Compute Shader)可以通過Media Foundation處理視頻(video),并將以前的D3DDX9、D3DX10視頻處理全部統(tǒng)一到D3DX11中去,可以簡化編程,提高效率。

  以上列舉的只是DX11.1規(guī)范功能升級(jí)的一部分,在微軟的MSDN頁面上有詳細(xì)的DX11.1功能介紹,不過里面的內(nèi)容主要針對(duì)開發(fā)者/程序員,普通讀者讀起來肯定頭大,我們也不需要搞這么復(fù)雜。

  簡單來說,DX11.1相對(duì)DX11只是一次優(yōu)化升級(jí),但是從DX10到DX10.1性能有提升的經(jīng)驗(yàn)來看,DX11.1可能也有小小的驚喜,即便畫質(zhì)上沒有提高,性能也會(huì)因效率的提高而受益多多。

● DX11.1什么時(shí)候發(fā)布,支持平臺(tái)如何?

  微軟之前稱DX11.1將伴隨Win8一起發(fā)布,不過Win8開發(fā)者預(yù)覽版上還是DX11,至少也要等到Win8 beta之后了,時(shí)間上差不多是明年2月份,最慘的就是要等待正式版發(fā)布了,這個(gè)就沒準(zhǔn)了。由于軟硬件平臺(tái)都沒準(zhǔn)備好,所以目前還沒有一個(gè)基于DX11.1的游戲或者demo,不知道一向敢為人先的Unigine公司什么時(shí)候放出第一個(gè)DX11.1 demo。

HD7970

DX11.1走向?qū)嵱眠€要等Win8發(fā)布之后

  綜上來看,DX11.1只是顯卡架構(gòu)升級(jí)中的小甜點(diǎn),不能當(dāng)成大餐,不過甜點(diǎn)也有自己獨(dú)特的味道,就看廠商如何應(yīng)用了。AMD先發(fā)制人,又一次用行動(dòng)證實(shí)了自己在支持DX11規(guī)范上的領(lǐng)先。

第四章 首批參測 Radeon HD7970顯卡一覽

第一節(jié) 藍(lán)寶HD7970曝光

   來自一線AIB大廠的——藍(lán)寶旗下的一款HD7970產(chǎn)品,藍(lán)寶作為最為A卡的優(yōu)異品牌,多次在業(yè)內(nèi)引領(lǐng)潮流,此次推出的Radeon HD 7970自然也不例外,下面就讓我們一起來看看此款顯卡。

藍(lán)寶Radeon HD 7970顯卡

    藍(lán)寶Radeon HD 7970,采用全新GCN架構(gòu)的Tahiti XT核心,28nm工藝制程,32個(gè)CU單元(總計(jì)2048個(gè)流處理器),128個(gè)紋理單元,支持DirectX 11.1API的圖形顯卡、理論性能相對(duì)HD6970提升了40%以上。

藍(lán)寶Radeon HD 7970顯卡

    供電方面采用采用,公版的5+1相數(shù)字供電設(shè)計(jì),全固態(tài)電容的用料為穩(wěn)定性提供了保障。外接供電接口采用6pin+8pin設(shè)計(jì),并且支持全新的eroCore Power”(核心零功耗技術(shù)),使得待機(jī)功耗僅為3W。

藍(lán)寶Radeon HD 7970顯卡

    顯存方面則配備了12顆GDDR5高速顯存顆粒組成384bit顯存規(guī)格。默認(rèn)核心顯存頻率為925MHz/5500MHz,由于是基于公版打造,此款顯卡的超頻能力不容忽視。

藍(lán)寶Radeon HD 7970顯卡

    在散熱方面依然采用的是,渦輪風(fēng)扇+真空腔均熱板的設(shè)計(jì),全公版的外形配合7MM的渦輪風(fēng)扇,在散熱方面的表現(xiàn)也十分的出眾。

藍(lán)寶Radeon HD 7970顯卡

    在輸出接口方面,藍(lán)寶Radeon HD 7970提供了DVI+HDMI+雙Mini Display Port的輸出接口設(shè)計(jì),通過轉(zhuǎn)接頭可滿足大眾用戶的使用需要。其中,HDMI+Display Port雙接口的加入,滿足了用戶組建Eyefinity多屏系統(tǒng)的需要

第四章/第二節(jié) 首測顯卡曝光:迪蘭HD7970

    作為一線的AIB廠商,迪蘭也在第一時(shí)間為大家推出了一款Radeon HD 7970顯卡。此款顯卡采用純公版設(shè)計(jì),基于全新的架構(gòu)、全新的PCI Express 3.0接口,以及3GB的海量GDDR5顯存,384bit位寬,在性能上表現(xiàn)出色。

迪蘭Radeon HD 7970顯卡

    迪蘭Radeon HD 7970基于公版制造,采用AMD最新28nm的Tahiti XT圖形核心,擁有2048個(gè)流處理器,128個(gè)紋理單元和32個(gè)光柵單元,支持最新的AMD Eyefinity 2.0多屏技術(shù),支持?jǐn)U展擴(kuò)展高達(dá)16K*16K分辨率顯示輸出,同時(shí)支持多種自定義排列位置。

HD7970脫胎換骨全測試!五年架構(gòu)大革命

    在供電方面,采用6+2相數(shù)字供電設(shè)計(jì),供電接口為6pin+8pin 。除此之外還支持AMD的ZeroCore Power”(核心零功耗技術(shù)),待機(jī)功耗僅為3W。

迪蘭Radeon HD 7970顯卡

    迪蘭Radeon HD 7970在顯存方面,板載3GBGDDR5顯存,位寬為384bit,核心與顯存默認(rèn)頻率925/5500MHZ。

HD7970脫胎換骨全測試!五年架構(gòu)大革命

    散熱方面,采用了高端的熱均板散熱器,配合70MM渦輪風(fēng)扇。

HD7970脫胎換骨全測試!五年架構(gòu)大革命

    迪蘭Radeon HD 7970在輸出接口方面,采用了全屏蔽輸出接口,2xDP+HDMI+D全接口輸出,并且還支持多音軌輸出、AMD Eyefinity 2.0多屏技術(shù),全新PCI-Express 3.0接口也帶來了速度方面質(zhì)的提升。

第四章/第三節(jié) 首測顯卡曝光:鐳風(fēng)HD7970

    強(qiáng)勁的Tahiti XT核心為鐳風(fēng)HD7970龍蜥版帶來了質(zhì)的提升。作為首款支持DirectX 11.1API的圖形顯卡,令游戲開發(fā)更簡單,同時(shí)支持新的DirectX 驅(qū)動(dòng)模型,WDDM 1.2 完美支持未來操作系統(tǒng)和新款游戲。

HD7970脫胎換骨全測試!五年架構(gòu)大革命

    鐳風(fēng)HD7970 龍蜥版采用AMD最新28nm的Tahiti XT圖形核心,擁有2048個(gè)流處理器,128個(gè)紋理單元和32個(gè)光柵單元,板載高達(dá)3GB的海量GDDR5顯存,位寬為384bit,核心與顯存默認(rèn)頻率925/5500MHz。

HD7970脫胎換骨全測試!五年架構(gòu)大革命

    鐳風(fēng)HD7970 龍蜥版在供電方面,采用6相數(shù)字供電設(shè)計(jì),其中的五相為顯存部分供電,一相為核心供電。在用料方面使用的是,優(yōu)異的URL固態(tài)電容,是普通電容壽命的一倍。

HD7970脫胎換骨全測試!五年架構(gòu)大革命

  鐳風(fēng)HD 7970 龍蜥版采用了成本高昂的大面積熱均板散熱器,大量鋁片在熱均板上整齊排列,70MM渦輪風(fēng)扇通過風(fēng)壓排除熱量。

HD7970脫胎換骨全測試!五年架構(gòu)大革命

    鐳風(fēng)HD7970 龍蜥版采用了全球最新28納米核心。得益于全新的制造工藝,晶體管數(shù)在躍升至43.1億,相對(duì)于HD 6970 的26.4億提升了63%,核心面積并沒有出現(xiàn)增長,相反還出現(xiàn)了些許的下降。

HD7970脫胎換骨全測試!五年架構(gòu)大革命

  風(fēng)HD7970 龍蜥版采用了全屏蔽輸出接口,2xDP+HDMI+D全接口輸出,贈(zèng)送DP轉(zhuǎn)DVI,HDMI轉(zhuǎn)DVI原廠轉(zhuǎn)接線各一條。支持最新的AMD Eyefinity 2.0多屏技術(shù),支持?jǐn)U展擴(kuò)展高達(dá)16K*16K分辨率顯示輸出,同時(shí)支持多種自定義排列位置。

HD7970脫胎換骨全測試!五年架構(gòu)大革命

  鐳風(fēng)HD 7970龍蜥版 采用了PCI Express 3.0全新的接口。全新的帶寬架構(gòu),相對(duì)于PCI Express 2.0規(guī)格,信號(hào)強(qiáng)度從5GT/s提升到了8GT/s,理論帶寬從16 Gb/s提升至32Gb/s工程師采用了128b/130b編碼方案,使PCI Express 所浪費(fèi)帶寬從20%下降至1.538%;主機(jī)板若有2個(gè)以上PCI-Express界面并搭配合適芯片晶片即可串聯(lián)AMD顯示卡使用Cross模式讓多個(gè)GPU實(shí)現(xiàn)聯(lián)合運(yùn)算。

第四章/第四節(jié) 首測顯卡曝光:訊景HD7970

    作為知名的A卡廠商,XFX訊景集團(tuán)一口氣為我們推出兩款HD7970系列產(chǎn)品。其中FX-797A-TDB酷魂黑卡基于非公版打造,采用獨(dú)創(chuàng)的高端散熱系統(tǒng),3D設(shè)計(jì)立體選材,全鋁面蓋尖端打磨,雙靜音懸浮風(fēng)扇,加大型均熱板,一體式浮雕托盤。

XFX訊景FX-797A-TDB 酷魂黑卡顯卡

  核心和顯存部分,訊景FX-797A-TDB酷魂黑卡搭載全新GCN架構(gòu)的Tahiti XT核心,28nm工藝制程,32個(gè)CU單元(總計(jì)2048個(gè)流處理器)。

XFX訊景FX-797A-TDB 酷魂黑卡顯卡

  在PCB設(shè)計(jì)和供電方面,訊景FX-797A-TDB酷魂黑卡延續(xù)訊景一貫的黑色PCB設(shè)計(jì),配備兩個(gè)交火接口最高支持3路交火,并搭配雙bios切換按鈕。5+1相數(shù)字分離式供電設(shè)計(jì),全部采用高規(guī)格供電元件,配置6+8pin電源接口。

XFX訊景FX-797A-TDB 酷魂黑卡顯卡

  散熱方面,訊景FX-797A-TDBC酷魂黑卡則搭載全新的酷魂散熱系統(tǒng),3D式散熱設(shè)計(jì),打磨全鋁面蓋,非公增大型真空均熱板,大口徑靜音雙風(fēng)扇。另外它還配置了創(chuàng)新一體式浮雕托盤,在增強(qiáng)散熱效能的同時(shí)加固PCB,讓顯卡運(yùn)行更加穩(wěn)定高效。

XFX訊景FX-797A-TDB 酷魂黑卡顯卡

  輸出方面,訊景FX-797A-TDB酷魂黑卡提供了DVI+HDMI+雙Mini Display Port的輸出接口設(shè)計(jì),通過轉(zhuǎn)接頭可滿足大眾用戶的使用需要。輸出接口處采用了“XFX”字樣設(shè)計(jì),可以將熱量充分排出,達(dá)到了更好的散熱效果。

第四章/第五節(jié) 首測顯卡曝光:訊景HD7970

    除了非公版外,XFX訊景還推出了純公版產(chǎn)品,訊景FX-797A-TNF上將就是一款基于公版打造的產(chǎn)品。

XFX訊景FX-797A-TNF 上將顯卡

  核心和顯存部分,訊景FX-797A-TNF上將顯卡搭載全新GCN架構(gòu)的Tahiti XT核心,28nm工藝制程,32個(gè)CU單元(總計(jì)2048個(gè)流處理器)。

XFX訊景FX-797A-TNF 上將顯卡

  在PCB設(shè)計(jì)和供電方面,F(xiàn)X-797A-TNF上將顯卡延續(xù)訊景一貫的黑色PCB設(shè)計(jì),配備兩個(gè)交火接口最高支持3路交火,并搭配雙bios切換按鈕;5+1相數(shù)字分離式供電設(shè)計(jì),全部采用高規(guī)格供電元件,配置雙6pin電源接口,完全能夠滿足HD6970的運(yùn)轉(zhuǎn)需求。

XFX訊景FX-797A-TNF 上將顯卡

  散熱方面,F(xiàn)X-797A-TNF上將顯卡搭載跟之前HD6970同樣的渦輪風(fēng)扇+真空腔均熱板設(shè)計(jì),有效的保證了顯卡的散熱需求。

XFX訊景FX-797A-TNF 上將顯卡

    顯存方面則配備了12顆GDDR5高速顯存顆粒組成384bit顯存規(guī)格;FX-797A-TNF上將顯卡默認(rèn)核心顯存頻率為925MHz/5500MHz

XFX訊景FX-797A-TNF 上將顯卡

  輸出方面,F(xiàn)X-797A-TNF上將顯卡提供了DVI+HDMI+雙Mini Display Port的輸出接口設(shè)計(jì),通過轉(zhuǎn)接頭可滿足大眾用戶的使用需要。其中,HDMI+Display Port雙接口的加入,滿足了用戶組建Eyefinity多屏系統(tǒng)的需要。

第四章/第六節(jié) 首測顯卡曝光:雙敏HD7970

  雙敏,這個(gè)幾乎是性價(jià)比代名詞的品牌也是第一時(shí)間推出了自己的HD7900。

雙敏無雙 HD7970 DDR5 (3G)黃金版顯卡

  AMD HD7970顯卡作為HD7900系列第一款發(fā)布產(chǎn)品,發(fā)布之時(shí),雙敏就在第一時(shí)間到貨市場,產(chǎn)品命名無雙 HD7970 DDR5 (3G)黃金版。面對(duì)如今高端缺貨的市場尷尬,雖然前段時(shí)間雙敏及時(shí)補(bǔ)充了一批優(yōu)異顯卡到市場,但仍無法抑制玩家對(duì)優(yōu)異顯卡的渴望,無雙 HD7970 DDR5 (3G)黃金版的發(fā)布上市,正是優(yōu)異玩家所迫切期望的。

雙敏無雙 HD7970 DDR5 (3G)黃金版顯卡

  相比HD6000系列產(chǎn)品,雙敏無雙 HD7970 DDR5 (3G)黃金版無論在工藝上還是在架構(gòu)上,都做了明顯的優(yōu)化調(diào)整,使產(chǎn)品功耗更低的同時(shí),晶體管和流處理器數(shù)量增加,使性能更加突出。

雙敏無雙 HD7970 DDR5 (3G)黃金版顯卡

  借助28nm工藝,雙敏無雙 HD7970 DDR5 (3G)黃金版圖形芯片將晶體管數(shù)集成到了恐怖的43.1億個(gè),再創(chuàng)業(yè)界新高,如此恐怖的晶體管集成規(guī)模,已經(jīng)數(shù)倍于當(dāng)前的高端CPU處理器。

雙敏無雙 HD7970 DDR5 (3G)黃金版顯卡

  雙敏無雙 HD7970 DDR5 (3G)黃金版在架構(gòu)上做了全新優(yōu)化,采用全新GCN架構(gòu),雖然GCN架構(gòu)仍屬于AMD開發(fā)的第三代圖形芯片架構(gòu),是HD6000系列“VLIW5”芯片架構(gòu)的優(yōu)化版本,但是其縮短了指令執(zhí)行周期、提升了架構(gòu)執(zhí)行效率。同時(shí)借助28nm新晶體管蝕刻工藝,GCN微架構(gòu)也可以在發(fā)熱量上有顯著降低,從而提升芯片運(yùn)行效率。而且芯片運(yùn)行頻率也可以由此收益、獲得提升,從而達(dá)成更強(qiáng)性能。

雙敏無雙 HD7970 DDR5 (3G)黃金版顯卡

  作為全新標(biāo)準(zhǔn),PCI-E 3.0新標(biāo)準(zhǔn)將信號(hào)傳輸率提高到了8GT/s,兩倍與PCI-E 2.0,同時(shí)增強(qiáng)了信號(hào)、數(shù)據(jù)完整性優(yōu)化等,其中包括收發(fā)均等。PLL改進(jìn)、時(shí)鐘數(shù)據(jù)恢復(fù)、支持拓?fù)渫ǖ涝鰪?qiáng)等等。新標(biāo)準(zhǔn)的改進(jìn),加速了硬件間數(shù)據(jù)傳輸,有效提升整體平臺(tái)的性能。

雙敏無雙 HD7970 DDR5 (3G)黃金版顯卡

  在諸多革新中,雙敏無雙 HD7970 DDR5 (3G)黃金版核心改進(jìn)還是用于3D游戲開發(fā)的Direct3D 11.1。全新的API DX11.1除了在原DX11的基礎(chǔ)上改進(jìn)自身細(xì)節(jié)外,加入了對(duì)目標(biāo)獨(dú)立光柵化的支持,這是HD5000/HD6000所不支持的。目前3D立體的實(shí)現(xiàn)要么繞過D3D,向游戲、應(yīng)用軟件呈現(xiàn)一個(gè)四緩沖,要么借助驅(qū)動(dòng)程序、中間件,間接控制渲染過程。而DX11.1卻可以讓3D立體技術(shù)直接被D3D API所支持,從而成為一種通用標(biāo)準(zhǔn),讓游戲開發(fā)變得更加簡單,圖形解碼更迅速。

雙敏無雙 HD7970 DDR5 (3G)黃金版顯卡

  此外,雙敏為實(shí)現(xiàn)3D顯示和多屏顯示的便利化、經(jīng)濟(jì)化,隨卡附送雙敏“睿視3D寬域套件”,包括支持HDMI1.4數(shù)據(jù)線,詳細(xì)的設(shè)置說明書和軟件光盤,讓你輕松知道如何組建自己的3D顯示和三屏顯示。而現(xiàn)在用戶只需要購買雙敏無雙 HD7970 DDR5 (3G)黃金版,就能免費(fèi)獲得這套價(jià)值199元的“睿視3D寬域套件”。

雙敏無雙 HD7970 DDR5 (3G)黃金版顯卡

  雙敏無雙 HD7970 DDR5 (3G)黃金版依舊支持HDMI1.4,輕松實(shí)現(xiàn)3D電視,DisplayPort1.2接口,單卡多屏輕松組建,UVD3.0解碼引擎,輕松愜意看3D藍(lán)光,而其開創(chuàng)的顯卡史上幾個(gè)第一,28nm新工藝、GCN新架構(gòu)、PCI-E 3.0新標(biāo)準(zhǔn),以及新的API DX11.1。

第四章/第七節(jié) 其他首發(fā)顯卡曝光匯總展示   

    AMD終于正式發(fā)布了業(yè)界翹首期盼的新一代單卡旗艦產(chǎn)品——HD7970。作為AMD中國大陸地區(qū)的其他核心合作伙伴,第一時(shí)間也都紛紛推出自己的產(chǎn)品,限于篇幅這里不再詳細(xì)評(píng)測,匯總展示如下。

五年架構(gòu)大革命!HD7970脫胎換骨全測試

華碩HD7970

五年架構(gòu)大革命!HD7970脫胎換骨全測試

盈通HD7970

五年架構(gòu)大革命!HD7970脫胎換骨全測試

微星HD7970

五年架構(gòu)大革命!HD7970脫胎換骨全測試

HIS HD7970

五年架構(gòu)大革命!HD7970脫胎換骨全測試

銘瑄HD7970

五年架構(gòu)大革命!HD7970脫胎換骨全測試

祺祥HD7970

五年架構(gòu)大革命!HD7970脫胎換骨全測試

昂達(dá)HD7970

第五章 顯卡性能全方位測試

第五章/第一節(jié) 測試平臺(tái)與測試方法說明

● 測試模式與測試方法:

    此次發(fā)布的顯卡定位高端游戲玩家,性能十分強(qiáng)勁,測試時(shí)所有游戲中開啟全部特效,包4X抗鋸齒(AA)和16X各向異性過濾(AF)。雖然很多游戲提供了更高精度的AA,但由于實(shí)用價(jià)值不高,且沒有可對(duì)比性,所以不做測試。

    為了做到全面客觀,有對(duì)比和參考,分辨率測目前最主流的1920x1080,和更高階的2560x1600。目前也有部分顯示器是(1920x1200),游戲在這種分辨率下的性能表現(xiàn)與1920x1080差不多,F(xiàn)PS稍低一點(diǎn)點(diǎn),使用這種顯示器的朋友依然可以參考我們的測試成績。

● 測試平臺(tái)配置:

HD7970

    此次測試平臺(tái)選擇了Intel最高端的六核心處理器,搭配最新的X79芯片組,與Radeon HD7970系列強(qiáng)強(qiáng)聯(lián)手,定位旗艦卡皇之戰(zhàn)。

HD7970

    AMD此次發(fā)布的新品HD7970,我們自然會(huì)拿它與自家上代產(chǎn)品HD6970和HD6990進(jìn)行對(duì)比。至于N卡方面,則選擇了單芯最強(qiáng)的GTX580進(jìn)行對(duì)比,同時(shí)奉上HD7970超頻和交火的成績,總計(jì)六款顯卡項(xiàng)目測試。

    除了OC項(xiàng)目外,其他參測顯卡都使用NVIDIA和AMD雙方的公版規(guī)格和公版頻率,這樣測得的性能和功耗發(fā)熱數(shù)據(jù)最有參考價(jià)值。

第五章/第二節(jié) DX10基準(zhǔn)測試:《3DMark Vantage》

電源多大才夠用旗艦級(jí)顯卡功耗全測試

軟件介紹:做為目前最為權(quán)威的性能測試軟件,3DMark Vantage在3D基準(zhǔn)性能測試,可以全面準(zhǔn)確的得出顯卡的真實(shí)性能,所以在歷次測試中都少不了它的加盟。3DMark Vantage所使用的全新引擎在DX10特效方面和《孤島危機(jī)》不相上下,但3DMark不是游戲,它不用考慮場景運(yùn)行流暢度的問題,因此Vantage在特效的使用方面比Crysis更加大膽,“濫用”各種消耗資源的特效導(dǎo)致Vantage對(duì)顯卡的要求空前高漲。

旗艦顯卡不是主角!來自次神460的救贖 電源多大才夠用旗艦級(jí)顯卡功耗全測試

畫面設(shè)置:3DMark Vantage中直接內(nèi)置了四種模式,分別為Extreme(旗艦級(jí))、High(高端級(jí))、Performance(性能級(jí))和Entry(入門級(jí)),只有在這四種模式下才能跑出總分,如果自定義模式就只能得到子項(xiàng)目分?jǐn)?shù)了。我們此次測試選擇了Extreme(旗艦級(jí))進(jìn)行測試。

3DMark Vantage Extreme模式成績:

HD7970

    DX10的標(biāo)桿,兼顧DX9的性能,時(shí)至今日,Vantage作為老游戲的代言人,依然無法被替代。HD7970默認(rèn)頻率在本項(xiàng)目測試中超出GTX28.87%,而超頻后更是超越了HD6990!

&nb

第五章/第三節(jié) DX10游戲性能測試:《孤島危機(jī)》

    Crysis(孤島危機(jī))無疑是DX11出現(xiàn)之前對(duì)電腦配置要求最高的PC游戲大作。作為DX10游戲的標(biāo)桿,Crysis的畫面達(dá)到了當(dāng)前PC系統(tǒng)所能承受的極限,超越了次世代平臺(tái)和之前所有的PC游戲。Crysis還有個(gè)資料片Warhead,使用了相同的引擎。

旗艦顯卡不是主角!來自次神460的救贖 12

畫面設(shè)置:Crysis只有在最高的VeryHigh模式下才是DX10效果,但此前所有高端顯卡都只能在低分辨率下才敢開啟DX10模式,如今的DX11顯卡終于有能力單卡特效全開流暢運(yùn)行。為了讓不同用戶都能找到參考的成績,我們測試了1920X1080和1680X1050兩種分辨率+NOAA和4AA兩種模式。

測試方法:Crysis內(nèi)置了CPU和GPU兩個(gè)測試程序,我們使用GPU測試程序,這個(gè)程序會(huì)自動(dòng)切換地圖內(nèi)的全島風(fēng)景,我們跑兩遍得到穩(wěn)定的平均FPS值。

● 1920X1080分辨率性能測試

HD7970

● 2560X1600分辨率性能測試

HD7970

    作為DX10的一朵奇葩,當(dāng)年有顯卡危機(jī)諢號(hào)的Crysis現(xiàn)在依然是顯卡資源占用大戶,尤其是開啟2560分辨率以后資源要求驚人,HD7970也僅僅跑出32幀的平均速率,而上一代的HD6970和GTX580則難以流暢運(yùn)行!

第五章/第四節(jié) DX10.1游戲測試:《孤島驚魂2》

游戲介紹:自《孤島驚魂》系列的版權(quán)被UBI購買之后,該公司蒙特利爾分部就已經(jīng)開始著手開發(fā)新作,本作不但開發(fā)工作從Crytek轉(zhuǎn)交給UBI,而且游戲的故事背景也與前作毫無關(guān)系,游戲的圖形和物理引擎由UBI方面完全重新制作。

旗艦顯卡不是主角!來自次神460的救贖 旗艦顯卡不是主角!來自次神460的救贖

畫面設(shè)置:借助于蒙特利爾工作室開發(fā)的全新引擎,游戲中將表現(xiàn)出即時(shí)的天氣與空氣效果,所有物體也都因?yàn)槿碌奈锢硪妫@得更加真實(shí)。你甚至可以在游戲中看到一處火焰逐漸蔓延,從而將整個(gè)草場燒光!而且首次對(duì)DX10.1提供支持,雖然我們很難看到。

測試方法:游戲自帶Benchmark工具。

● 1920X1080分辨率性能測試

HD7970

● 2560X1600分辨率性能測試

HD7970

Farcry2在本次測試中完全淪為打醬油,因?yàn)樗酗@卡都毫無壓力。

第五章/第五節(jié) DX11基準(zhǔn)測試:《3DMark11》

    時(shí)至今日,依然沒有任何一個(gè)測試軟件或者游戲能夠取代3DMark在游戲玩家心目中的地位。但是到了《3DMark11》,因?yàn)锳/N顯卡測測試成績和游戲成績有不小出入,質(zhì)疑之聲四起。

3DMark11權(quán)威測試!22款DX11顯卡排行

顯卡決戰(zhàn)3DMark11 顯卡決戰(zhàn)3DMark11

    3DMark11的測試重點(diǎn)是實(shí)時(shí)利用DX11 API更新和渲染復(fù)雜的游戲世界,通過六個(gè)不同測試環(huán)節(jié)得到一個(gè)綜合評(píng)分,藉此評(píng)判一套PC系統(tǒng)的基準(zhǔn)性能水平。

3DMark 11的特色與亮點(diǎn):

1、原生支持DirectX 11:基于原生DX11引擎,全面使用DX11 API的所有新特性,包括曲面細(xì)分、計(jì)算著色器、多線程。

2、原生支持64bit,保留32bit:原生64位編譯程序,獨(dú)立的32位、64位可執(zhí)行文件,并支持兼容模式。

3、全新測試場景:總計(jì)六個(gè)測試場景,包括四個(gè)圖形測試(其實(shí)是兩個(gè)場景)、一個(gè)物理測試、一個(gè)綜合測試,全面衡量GPU、CPU性能。

4、拋棄PhysX,使用Bullet物理引擎:拋棄封閉的NVIDIA PhysX而改用開源的Bullet專業(yè)物理庫,支持碰撞檢測、剛體、軟體,根據(jù)ZLib授權(quán)協(xié)議而免費(fèi)使用。

● 3DMark 11 Extreme模式成績:

HD7970

    真正的DX11性能標(biāo)桿無疑還是非3Dmark11莫屬,93%以上的交火效率也是非常可觀。大量特效堆砌出來的以假亂真的畫面讓HD7970 CF也不能完全流暢運(yùn)行它,只能說本項(xiàng)目的測試可以真實(shí)的反應(yīng)顯卡的真正實(shí)力。

第五章/第六節(jié) DX11游戲性能測試:《塵埃3》

    賽車游戲中,轟鳴的發(fā)動(dòng)機(jī)聲、風(fēng)馳電掣的急速快感,足以讓無數(shù)玩家腎上腺素飆升。也許正是如此,才使得《科林麥克雷:塵埃3》在眾多游戲中備受玩家青睞。

近乎完美之作!《塵埃3》顯卡性能測試  

  《塵埃3》采用與《F1 2010》同樣的Ego引擎,擁有更加擬真的天氣系統(tǒng)及畫面效果。游戲?qū)﹫鼍?、?dòng)態(tài)天氣、YouTube上傳、經(jīng)典的賽車、分屏對(duì)戰(zhàn)、party模式、開放世界、更多真實(shí)世界中的贊助商和車手等特點(diǎn)。

索泰2GB顯卡測試

    相比首款DX11游戲的《塵埃2》,《塵埃3》在諸多DX11游戲特效的力助下,游戲畫質(zhì)表現(xiàn)更加出色。無論是日出還是日落,下雨還是干燥,看上去都非常逼真。背景的煙花和觀眾讓游戲代入感非常強(qiáng)。車身會(huì)隨著比賽的進(jìn)行染上泥土或者雪,一輛嶄新的賽車或許會(huì)在比賽完成之后,變成一輛被泥土覆蓋的“垃圾車”。

索泰2GB顯卡測試

  圖像方面,《塵埃3》是該系列至今為止最漂亮的一款?!秹m埃3》中的駕駛感相當(dāng)不錯(cuò),6種調(diào)整選項(xiàng)也足以應(yīng)付各種地形。而且,在芬蘭、密歇根、挪威、洛杉磯、肯尼亞和摩納哥駕駛賽車狂飆真的是一種享受。賽車會(huì)對(duì)相當(dāng)細(xì)微的操作做出回應(yīng),在雪地或泥地中,這一點(diǎn)尤其重要。而當(dāng)你的對(duì)手把雪花和泥漿彈到你的擋風(fēng)玻璃上時(shí),你只能依靠自己的直覺和細(xì)微的操作不至于翻車。而游戲中,雪花、雨滴和夜晚駕駛不僅僅是外在的裝飾而已,和現(xiàn)實(shí)生活一樣,你需要各種賽車配件來應(yīng)對(duì)這些情況。

● 1920X1080分辨率性能測試

HD7970

● 2560X1600分辨率性能測試

HD7970

    依然是HD7970的showtime,OC滅到HD6990,而HD6970和GTX580只有在后面吃灰的份了……

第五章/第七節(jié) DX11游戲性能測試:《戰(zhàn)地3》

  由EA DICE工作室開發(fā)的《戰(zhàn)地3》采用了最新的“寒霜2”引擎,完美支持DirectX 11,并且擁有強(qiáng)大的物理效果,最大的亮點(diǎn)還是光照系統(tǒng),其渲染的場景已近乎亂真的地步,視覺效果堪稱絕贊。游戲還支持即時(shí)晝夜系統(tǒng),為玩家營造一個(gè)親臨現(xiàn)場的真實(shí)環(huán)境。

索泰2GB顯卡測試

    寒霜2引擎最大的特點(diǎn)便是支持大規(guī)模的破壞效果。由于考慮到游戲的畫面表現(xiàn)以及開發(fā)成本,DICE放棄了以只支持DX9的WINDOWS XP操作系統(tǒng)。另外由于該引擎基于DX11研發(fā),向下兼容DX10,因而游戲只能運(yùn)行于WINDOWS VISTA以上的的操作系統(tǒng)。

索泰2GB顯卡測試

    在《戰(zhàn)地3》中,“寒霜引擎2”內(nèi)置的破壞系統(tǒng)已經(jīng)被提升至3.0版本,對(duì)于本作中的一些高層建筑來說,新版的破壞系統(tǒng)將發(fā)揮出電影《2012》那般的災(zāi)難效果,突如其來的建筑倒塌將震撼每一位玩家的眼球。

索泰2GB顯卡測試

   《戰(zhàn)地3》采用了ANT引擎制作人物的動(dòng)作效果。在此之前,ANT引擎已在EA Sports旗下的《FIFA》等游戲中得到應(yīng)用,不過在FPS游戲中使用尚屬首次。相較于Havok等物理引擎,用ANT引擎可以花費(fèi)較少的精力制作出逼真的效果。舉例來說,戰(zhàn)士在下蹲時(shí)會(huì)先低頭俯身、放低槍口,而不是像以前的游戲那樣頭、身、槍如木偶般同時(shí)發(fā)生位移。此外,ANT引擎也可以讓電腦AI的行動(dòng)更加合理。但這款大作目前并不能良好的兼容120Hz3D以及紅藍(lán)3D模式。

● 1920X1080分辨率性能測試

HD7970

● 2560X1600分辨率性能測試

HD7970  

    寒霜2引擎年度大作戰(zhàn)地三,是為數(shù)不多的畫面可以挑戰(zhàn)Crysis的游戲大作,而對(duì)核心和顯存的要求已經(jīng)超越了Crysis!

第五章/第八節(jié) DX11游戲性能測試:《AVP》

    AVP原始版本并不支持AA,但升級(jí)至1.1版本之后,MSAA選項(xiàng)出現(xiàn)在了DX11增強(qiáng)特效當(dāng)中,當(dāng)然還支持Tessellation、HDAO、DirectCompute等DX11招牌特效,游戲畫面相當(dāng)出色。

游戲介紹:《Aliens vs. Predator》同時(shí)登陸PC、X360和PS3,其中PC版因?yàn)橹С諨X11里的細(xì)分曲面(Tessellation)、高清環(huán)境光遮蔽(HDAO)、計(jì)算著色器后期處理、真實(shí)陰影等技術(shù)而備受關(guān)注,是AMD大力推行的游戲之一,但是這樣的主題難免讓本作有很多不和諧的地方,暴力血腥場面必然不會(huì)少!發(fā)行商世嘉在2009年11月就曾明志,表示不會(huì)為了通過審查而放棄電子娛樂產(chǎn)品發(fā)行商的責(zé)任,因?yàn)橛螒蛞S持“異形大戰(zhàn)鐵血戰(zhàn)士”這一中心主題,無論畫面、玩法還是故事線都不能偏離原著。

旗艦顯卡不是主角!來自次神460的救贖 旗艦顯卡不是主角!來自次神460的救贖

顯卡進(jìn)入GHz時(shí)代!GTX550Ti 權(quán)威評(píng)測

測試方法:游戲帶Benchmark,其中測試畫面頗代表意義,很好的體現(xiàn)了Tessellation異形身體以及HDAO等高級(jí)特效,希望這些特效能讓系統(tǒng)發(fā)揮所有潛力。

● 1920X1080分辨率性能測試

HD7970

● 2560X1600分辨率性能測試

HD7970

    拋開游戲娛樂性不談,這款應(yīng)用了不少DX11特效的作品畫面還是可圈可點(diǎn)的,當(dāng)然也是非常吃顯卡資源。開啟全部特效以后HD6970力不從心,其他顯卡順利過關(guān)。

第五章/第九節(jié) DX11游戲性能測試:《地鐵 2033》

游戲介紹:《地鐵2033》(Metro 2033)是俄羅斯工作室4A Games開發(fā)的一款新作,也是DX11游戲的新成員。該游戲的核心引擎是號(hào)稱自主全新研發(fā)的4A Engine,支持當(dāng)今幾乎所有畫質(zhì)技術(shù),比如高分辨率紋理、GPU PhysX物理加速、硬件曲面細(xì)分、形態(tài)學(xué)抗鋸齒(MLAA)、并行計(jì)算景深、屏幕環(huán)境光遮蔽(SSAO)、次表面散射、視差貼圖、物體動(dòng)態(tài)模糊等等。

華麗背后的陷阱!A/N DX11顯卡再碰撞

開啟景深,模擬鏡頭感

畫面設(shè)置:《地鐵2033》雖然支持PhysX,但對(duì)CPU軟件加速支持的也很好,因此使用A卡玩游戲時(shí)并不會(huì)因PhysX效果而拖累性能。該游戲由于加入了太多的尖端技術(shù)導(dǎo)致要求非常BT,以至于我們都不敢開啟抗鋸齒進(jìn)行測試,只是將游戲內(nèi)置的效果調(diào)至最高。游戲自帶Benchmark,這段畫戰(zhàn)斗場景并不是很宏大,但已經(jīng)讓高端顯卡不堪重負(fù)了。

測試說明:如果說是CRYSIS發(fā)動(dòng)了DX10時(shí)代的顯卡危機(jī),那地鐵2033無疑是DX11時(shí)代的顯卡殺手!地鐵2033幾乎支持當(dāng)時(shí)可以采用的所有新技術(shù),在畫面雕琢上大肆鋪張,全然不顧顯卡們的感受,和CRYSIS如出一轍。然而CRYSIS靠著特效的堆積和不錯(cuò)的優(yōu)化,其驚艷絕倫的畫面和DX9C游戲拉開了距離,終究賺足了眼球;而地鐵則沒有這么好運(yùn)了,畫面固然不差,BUG卻是很多,招來了大量的非議。

    拋開游戲性不講,這款DX11作品作為測試3D性能的工具還是很有價(jià)值的,我們考慮到能玩這款游戲的玩家至少擁有1080P的屏幕,所以放棄了1680X1050的測試。而開啟DOF景深效果對(duì)顯卡負(fù)載太大,同樣放棄。

● 1920X1080分辨率性能測試

HD7970

● 2560X1600分辨率性能測試

HD7970

    地鐵2033,一款銷量慘淡,游戲性被人遺忘但卻家喻戶曉的游戲,懷疑開發(fā)小組成員是從3Dmark小組中跳槽過來的人士,抑或是N年以后穿越來到現(xiàn)在的代碼?總之和目前顯卡不甚相容,DX11游戲中的奇葩。

第五章/第十節(jié) DX11游戲性能測試:《孤島危機(jī)2》

索泰2GB顯卡測試

  《孤島危機(jī)2》是《孤島危機(jī)》的續(xù)作,游戲采CryENGINE 3引擎所制作。在游戲內(nèi)容上與一代也有很大變化,已經(jīng)從秘密的叢林作戰(zhàn)轉(zhuǎn)向了公開、大規(guī)模的現(xiàn)城市戰(zhàn)爭。故事發(fā)生在距一代3年后的2023年。外星人在地球上的大片區(qū)域挑起了戰(zhàn)爭,各大城市都遭到攻擊,人口銳減,玩家將要進(jìn)行捍衛(wèi)地球的末日戰(zhàn)爭。

索泰2GB顯卡測試

    CE3擁有不遜于CE2的畫面表現(xiàn),并且?guī)砹酥T多的新特性和強(qiáng)大的SandBox3編輯器,同時(shí)新引擎也能適應(yīng)目前的PS3/XBOX360家用機(jī)平臺(tái),帶來家用機(jī)上的高水準(zhǔn)發(fā)揮,同時(shí)代表作Crysis2將登陸PC/XBOX360/PS3平臺(tái),引擎支持DirectX9/DirectX10/DirectX11,DX11版本僅PC,且要下載補(bǔ)丁。由于是一款NVIDIA的THE WAY游戲,所以此游戲DX11版本優(yōu)化了N卡。

● 1920X1080分辨率性能測試

HD7970

● 2560X1600分辨率性能測試

HD7970

    打上高級(jí)紋理補(bǔ)丁,Crysis2的顯存占用非常驚人,而本作中OC對(duì)成績提高不太明顯,雙卡CF效率卻是非常之高。

第六章/第一節(jié) 曲面細(xì)分專項(xiàng)測試:《石巨人》

    在另一款標(biāo)桿性DX11游戲《Stone Giant》中,通過曲面細(xì)分+置換貼圖達(dá)到了的畫質(zhì)提升同樣非常顯著,整個(gè)場景的細(xì)節(jié)程度獲得大幅加強(qiáng),讓畫面更加逼真。

DX9/10/11三大戰(zhàn)役!A/N旗艦性能對(duì)決

游戲介紹:游戲引擎開發(fā)商BitSquid與游戲開發(fā)商Fatshark近日聯(lián)合公布了一個(gè)展示DX11強(qiáng)大技術(shù)的DEMO。這個(gè)名為《StoneGiant》(石巨人)的DEMO,可以讓玩家來測試自己PC顯卡的DX11性能。BitSquid Tech即將提供PC平臺(tái)的引擎,并且大概在今年第三季度將提供PS3和Xbox 360等其他平臺(tái)的引擎。

佛祖的2根燈芯 談DX11與游戲相伴相生

核心顯存誰重要?GTX460SE性能全測試 核心顯存誰重要?GTX460SE性能全測試

    置換貼圖由于需要大量的頂點(diǎn)去進(jìn)行位移,所以需要模型具備足夠數(shù)量的多邊形,而曲面細(xì)分做的事情也正是如此,這也就成為了它提升畫面質(zhì)量的第二重作用。

畫面設(shè)置:StoneGiant是一款重量級(jí)的DX11測試軟件,之所以這么說是因?yàn)樗罅渴褂昧薉X11的招牌特效:曲面細(xì)分和景深特效,可以讓顯卡的DX11性能表露無遺。進(jìn)入之后可以選擇開啟關(guān)閉Tessellation以及DOF(DX11級(jí)別景深)進(jìn)行測試,這兩項(xiàng)技術(shù)都十分消耗資源,尤其是同時(shí)打開時(shí)。其中Tessellation技術(shù)對(duì)畫質(zhì)的改善最為明顯,測試時(shí)默認(rèn)開啟Tessellation、打開DOF進(jìn)行測試。

● 1920X1080分辨率性能測試

HD7970

● 2560X1600分辨率性能測試

HD7970

    石巨人是一款比較偏重tessellation曲面細(xì)分和DOF景深效果的DX11性能測試軟件,A卡的“壓力”依然很大。雖然AMD官方聲稱HD7970曲面細(xì)分性能是HD6970的四倍,是HD5870的12倍(換算得來),但本項(xiàng)測試中GTX580還是撈到了些許優(yōu)勢。

第六章/第二節(jié) 曲面細(xì)分專項(xiàng)測試:《Heaven 2.5》

    Tessellation如此重要,所以首款DX11測試程序——Heaven Benchmark中,幾乎所有的場景都是由Tessellation技術(shù)動(dòng)態(tài)生成的,地圖中央的飛龍,和周圍凹凸不平的磚墻、石階和瓦片給人留下了深刻的印象。

    Unigine Engine率先發(fā)布了首款DX11測試/演示程序——Heaven Benchmark,其中大量運(yùn)用了DX11新增的技術(shù)和指令,在DMark11面世之前,Heaven曾經(jīng)是DX11性能測試的非常好的選擇。

電源多大才夠用旗艦級(jí)顯卡功耗全測試 電源多大才夠用旗艦級(jí)顯卡功耗全測試

Heaven Benchmark2.5的Tessellation效果

    在這幅圖中,大家注意觀察左側(cè)的墻壁(以及凸出石塊的陰影)、右側(cè)的臺(tái)階和下方的鵝卵石路,Tessellation技術(shù)生成的是實(shí)實(shí)在在的頂點(diǎn)和曲面,所有的巖石、臺(tái)階和石塊都是獨(dú)立存在,而不再是平面上的虛擬貼圖而已。

畫面設(shè)置:2.5版本進(jìn)一步強(qiáng)化了Tessellation技術(shù)的應(yīng)用,細(xì)分精度更高,畫面更上一層樓。

● 1920X1080分辨率性能測試

HD7970脫胎換骨全測試!5年架構(gòu)大革命

● 2560X1600分辨率性能測試

HD7970脫胎換骨全測試!5年架構(gòu)大革命

    相比石巨人,天堂的Tessellation程度更加變態(tài),其實(shí)曲面細(xì)分太高以后一些模型失真度過高、性能損失也大,實(shí)際游戲中使用效果并不好,但我們?yōu)榱藴y試顯卡的Tessellation性能,還是特意將它開到最高的Extreme。果然,在這個(gè)項(xiàng)目中HD7970代表A卡終于揚(yáng)眉吐氣了一回!

第六章/第三節(jié) PhysX特效專項(xiàng)測試:《BatmanAC》

    在經(jīng)歷了兩年前阿卡姆瘋?cè)嗽簬淼恼鸷澈?,Rocksteady終于在今年年底帶來了蝙蝠俠的續(xù)作——阿卡姆之城。這款游戲也在上市之初讓我們見識(shí)出了正統(tǒng)版權(quán)的威力,有華納兄弟的贊助與發(fā)行,完全再現(xiàn)電影和小說中的原著橋段不再是夢(mèng),100%的高還原度讓玩家猶如身臨其境,再現(xiàn)了一個(gè)熒幕上真實(shí)的蝙蝠俠或許也是這部游戲的成功所在。

顯存之戰(zhàn)!3D/PhysX多模式考驗(yàn)主流N卡

   《蝙蝠俠:阿卡姆之城》仍然建立在《阿卡姆瘋?cè)嗽骸返臍夥丈希贿^這次上升至阿甘之城——高譚市內(nèi)戒備森嚴(yán)的,關(guān)押了大量暴徒的監(jiān)獄之中。而且新作還匯集了眾多明星參與的配音陣容以及蝙蝠俠中的極度兇殘的惡棍,并改進(jìn)和加強(qiáng)了一游戲特點(diǎn),讓玩家們擁有像《蝙蝠俠前傳2:黑暗騎士》一般的終極游戲體驗(yàn)。

顯存之戰(zhàn)!3D/PhysX多模式考驗(yàn)主流N卡

   阿卡姆之城的畫面,絕對(duì)是當(dāng)今次時(shí)代游戲中數(shù)一數(shù)二的,但是其開發(fā)引擎卻依舊是虛幻3,這著實(shí)讓許多玩家感嘆,到底虛幻3引擎還有多大潛力可以發(fā)揮。雖然虛幻3引擎目前來看最大的問題就是畫面普遍油膩感十足,但是在阿卡姆之城中,少許的油膩感卻成了點(diǎn)睛之筆,讓蝙蝠俠更加貼近漫畫、電影。

顯存之戰(zhàn)!3D/PhysX多模式考驗(yàn)主流N卡

    除了虛幻3的引擎外,蝙蝠俠從上一代作品中就加入了NVIDIA的PhysX物理加速引擎。在游戲的細(xì)節(jié)中,更加貼近真實(shí)效果,煙霧、燈光、人物的衣服、報(bào)紙等等細(xì)節(jié)全部通過PhysX物理引擎計(jì)算,游戲中的破碎、打擊效果隨之表現(xiàn)的也不在那么匪夷所思。但是,凡事都有兩面,真實(shí)的受力表現(xiàn)換來的則是大量的資源占用,這也使得蝙蝠俠這個(gè)虛幻3引擎的游戲一下成為了硬件殺手,如果達(dá)到非常好的游戲表現(xiàn),恐怕非GTX580這樣的旗艦單卡莫屬了。

● 1920X1080分辨率、PhysX high性能測試

HD7970

● 1920X1080分辨率、PhysX off性能測試

HD7970

● 2560X1600分辨率、PhysX high性能測試

HD7970

● 2560X1600分辨率、PhysX off性能測試

HD7970

    PhysX的確是個(gè)好技術(shù),可惜支持PhysX的游戲大作目前真沒幾款能拿得出手,Batman系列算是鳳毛麟角。雖然這樣,我們還是詳細(xì)的測試了這款爭議游戲,以獲悉HD7970和GTX580的性能差距。

    測試結(jié)果倒是出人意料,有了6核12線程的3960X加盟,HD7970在2560 Physx higt模式下居然力壓GTX580!

第六章/第四節(jié)

  ● 《文明5》紋理壓縮

HD7970

    得益于全新的GCN架構(gòu),圖形計(jì)算性能相對(duì)VLIM5和VLIW5提升非常大,在《文明5》紋理壓縮對(duì)比中性能領(lǐng)先Radeon HD 6970多達(dá)58%,對(duì)比GeForce GTX 580也領(lǐng)先了12%。

    ● SmallLuxGPU光線追蹤

HD7970

    在SmallLuxGPU光線追蹤測試下,Radeon HD 7970表現(xiàn)更加驚人,對(duì)比Radeon HD 6970、GeForce GTX 580分別高出74%、72.5%,僅比Radeon HD 6990慢了9%。

第六章/第五節(jié)

    ● DX11 SDK CS流體模擬

HD7970

HD7970

    由于網(wǎng)格搜索測試基于CUDA而開發(fā),NVIDIA顯卡占有絕對(duì)的優(yōu)勢,即使是Radeon HD 7970相對(duì)Radeon HD 6970提升了47%,依然和GTX 580有不小的差距。

   ● 蒙特卡羅算法

HD7970

    蒙特卡羅算法基于OpenCL,測試結(jié)果為模擬400步執(zhí)行所需的時(shí)間。這是Radeon HD 500系列以來A卡的長項(xiàng),Radeon HD 7970又進(jìn)一步比Radeon HD 6970提升了14%,明顯領(lǐng)先。Radeon HD 6900系列其實(shí)還要比Radeon HD 5800系列稍慢一些,可能是VLIW4架構(gòu)的緣故。

第六章/第六節(jié)

   ● AES加/解密

HD7970

    在AES加/解密表現(xiàn)中,Radeon HD 7970雖然相對(duì)上代Radeon HD 6970領(lǐng)先71%,不過依然不敵GTX 580。

    總體來說采用了GCN架構(gòu)的Radeon HD 7970,在很多通用計(jì)算性能方面實(shí)現(xiàn)了質(zhì)的飛躍,只是在一些NVIDIA優(yōu)勢項(xiàng)目上依然落敗GTX 580,總體表現(xiàn)相當(dāng)出色。

3DMark Vantage 像素紋理填充

HD7970

HD7970

    測試中使用3DMark Vantage來測量像素填充,通過利用ROP單元盡量混合更多的像素。理論上Tahiti XT可以在每個(gè)時(shí)鐘周期完成32個(gè)色彩的處理,也就是說925MHz的Radeon HD 7970可以獲得29.6Gpix/s的速率,不過任何架構(gòu)并不是100%執(zhí)行的,實(shí)際測試中Radeon HD 7970像素填充率為13.33Gpix/s。

    如果按照理論計(jì)算(參照Radeon HD 7970),那么Radeon HD 6970為28.16Gpix/s,不過實(shí)際中Radeon HD 7970卻領(lǐng)先Radeon HD 6970多達(dá)51%。雖然ROP的執(zhí)行效率離100%差距甚遠(yuǎn),不過相對(duì)Radeon HD 6970執(zhí)行效率提升非常大,這大概也是AMD不在Tahiti XT上面繼續(xù)增加ROP的目的吧!
 <

第七章 附加測試項(xiàng)目與成績匯總

第一節(jié) 附加測試:顯卡功耗

    我們的功耗測試方法是直接統(tǒng)計(jì)整套平臺(tái)的總功耗,既簡單、又直觀。測試儀器為微型電力監(jiān)測儀,它通過實(shí)時(shí)監(jiān)控輸入電源的電壓和電流計(jì)算出當(dāng)前的功率,這樣得到的數(shù)值就是包括CPU、主板、內(nèi)存、硬盤、顯卡、電源以及線路損耗在內(nèi)的主機(jī)總功率(不包括顯示器)。

G80禁錮的右半部分

    待機(jī)為windows7桌面下獲得的最小值;滿載是以1440X768模式運(yùn)行Furmark時(shí)的最大值,F(xiàn)urmark能夠讓顯卡穩(wěn)定的以100%滿負(fù)載模式運(yùn)行,測得的功耗值比一般的游戲要高一些。

顯卡空閑整機(jī)功耗測試(顯示器除外)

HD7970

顯卡滿載整機(jī)功耗測試(顯示器除外)

HD7970

    HD7970待機(jī)功耗僅101W,遠(yuǎn)小于HD6990和GTX580,基本和集顯功耗相當(dāng),可見AMD在空閑功耗控制方面有了突破性的技術(shù)進(jìn)步。

    滿載功耗方面,HD7970控制的也是非常出色,即使超頻以后性能飆升,功耗依然低于GTX580,表現(xiàn)非常完美。雙卡CF以后CPU負(fù)載也略有上升,所以功耗增長不全是來自于第二塊HD7970。

第七章/第二節(jié) 成績匯總:Radeon HD7970 PK GeForce GTX580

HD7970脫胎換骨全測試!5年架構(gòu)大革命

    AMD新君HD7970對(duì)比NVIDIA卡皇GTX580完全是壓倒性的性能優(yōu)勢,在幾乎所有的游戲中都保持較大的領(lǐng)先幅度,而在2560大分辨率的考驗(yàn)下,擁有3GB顯存的HD7970優(yōu)勢更加明顯,就算加權(quán)N卡優(yōu)勢項(xiàng)目,平均值依然領(lǐng)先GTX580 1.5GB 27.39%之多!只在Tessellation Benchmark和PhysX的部分測試中告負(fù)。

    可能有些人會(huì)說,HD7970無論核心頻率還是顯存頻率,都要比GTX580高不少,這樣對(duì)比會(huì)否有失公允?如果您有這個(gè)疑慮的話,那么不妨看看表格最下方的功耗測試,無論是待機(jī)功耗還是滿載功耗,HD7970比GTX580都要低一些。

    這就意味著,A卡無論單位功耗下的性能、還是顯卡整體性能,都已經(jīng)完勝N卡了。

第七章/第三節(jié) 成績匯總:Radeon HD7970 PK Radeon HD6970

HD7970脫胎換骨全測試!5年架構(gòu)大革命

    上一代的AMD單芯卡皇HD6970無論規(guī)格還是架構(gòu),都無法和HD7970相提并論,因此性能表現(xiàn)也難以同日而語,HD7970整體性能領(lǐng)先HD6970 47.03%。

    而且仔細(xì)看來,HD6970能跑出這個(gè)成績也屬僥幸了,主要是在一些對(duì)CPU要求很高的物理游戲或者對(duì)顯卡要求相對(duì)低的游戲中,F(xiàn)PS達(dá)到極限,CPU成為瓶頸。否則會(huì)輸?shù)母鼞K!

    總體來看,長江后浪推前浪,HD7970完全秒殺上一代的HD6970!雖然因?yàn)橐?guī)格的大幅提升,滿載功耗上升而來16.98%,但能耗比依然是大幅提升。當(dāng)然這里并不是說HD6970廢柴一條!HD7970價(jià)格定位本身也高出HD6970不少,HD6870依然有自己的用戶定位和市場空間。

第七章/第四節(jié) Radeon HD7970 PK Radeon HD6990

HD7970

    遁世修行的HD6990雙芯高人出馬果然名不虛傳,終于略挫HD7970的銳氣。整體來看,HD6990相比HD7970優(yōu)勢還是比較明顯的,除去BatMan2以外,平均領(lǐng)先15.84%。

    但是為何要除去BatMan2?因?yàn)樵贐atMan2測試時(shí),驅(qū)動(dòng)和游戲版本并沒有最完善版本,雙芯并沒有發(fā)揮作用,反而拖累了性能表現(xiàn)。如果加入BatMan2的成績,HD6990領(lǐng)先幅度將大打折扣。

    既然明知有Bug,為何還要放上成績?小編這里其實(shí)想借機(jī)告訴想多GPU集聯(lián)的朋友,近年來雙芯顯卡抑或雙卡CF雖然效率出眾,性能爆表,但并非完美。并不是所有游戲的不同版本都能兼容。存在即為合理,我們測試就不得不考慮到這種情況而加以說明。

第七章/第五節(jié) 成績匯總:Radeon HD7970 CrossFire交火效率

五年架構(gòu)大革命!HD7970脫胎換骨全測試

HD7970

    可以看出,在幾款要求十分苛刻的游戲當(dāng)中,雙HD7970交火系統(tǒng)相比單卡的性能提升高達(dá)90%以上,這說明AMD交火驅(qū)動(dòng)已經(jīng)做得非常完善了,而對(duì)于提升超過100%的天堂2.5來說也屬正常。因?yàn)槔碚撋辖换鹦阅苁怯锌赡芡黄?00%的。

    不過,在部分要求不高的老游戲、或者是CPU瓶頸效應(yīng)比較嚴(yán)重的游戲中,雙卡性能提升幅度并不明顯。正是這些游戲拖累了交火的整體性能提升幅度。除去雙卡性能失效的Batman2,平均提升幅度85.02%,相當(dāng)強(qiáng)大!

第七章/第六節(jié) 成績匯總:Radeon HD7970 超頻效能測試

HD7970

    HD7970作為AMD定位旗艦的顯卡,默認(rèn)頻率高達(dá)925/5500MHz。但28nm的工藝極限并不在此。和此前顯卡測試不同,前面所有的效能測試中我們均特意加入了1125/6300MHz的成績,原因有三:

1、Radeon HD7970 超頻之后,性能表現(xiàn)非常穩(wěn)定,在所有測試項(xiàng)目中均無花屏死機(jī)或者驅(qū)動(dòng)停止響應(yīng)的情況發(fā)生。

2、Radeon HD7970 超頻1125/6300MHz,并不需要更改核心和顯存電壓,而功耗增加也非常少,基本可以忽略。

3、Radeon HD7970 超頻至1125/6300MHz,相對(duì)于默認(rèn)頻率功耗增加非常小,基本可以忽略。

    很顯然GTX580已經(jīng)不是HD7970的對(duì)手,因此我們不應(yīng)該停留在單純對(duì)比性能與價(jià)格這種初級(jí)階段了,在本文的最后,我們來回顧和總結(jié)一下HD7970的幾大特點(diǎn)。

● 非常先進(jìn)的28nm工藝

HD7970

    GPU的制造是一項(xiàng)極為復(fù)雜的過程,GPU制造工藝的先進(jìn)與否決定了GPU的性能優(yōu)劣。事實(shí)上GPU的發(fā)展史也可以看作是制作工藝的發(fā)展史。更先進(jìn)的制造工藝意味著更高的集成度,更高的性能。說制作工藝的改進(jìn)是GPU發(fā)展帶來最強(qiáng)大的源動(dòng)力亦不為過。

● 最高的能源效率

HD7970

    工藝和架構(gòu)的革新讓Radeon HD7970擁有更低的能源利用效率,而這也是首次旗艦顯卡擁有個(gè)位數(shù)的待機(jī)功耗。

● 最快的PCI-E速度

HD7970

    PCI-E 3.0規(guī)范將數(shù)據(jù)傳輸率提升到8GHz|8GT/s(最初也預(yù)想過10GHz),并保持了對(duì)PCI-E 2.x/1.x的向下兼容,繼續(xù)支持2.5GHz、5GHz信號(hào)機(jī)制?;诖耍琍CI-E 3.0架構(gòu)單信道(x1)單向帶寬即可接近1GB/s,十六信道(x16)雙向帶寬更是可達(dá)32GB/s。

● 最新的DirectX API支持

HD7970

    Radeon HD7970是第一款支持Microsoft DirectX 11.1的顯卡,新版API支持的諸多新特性是未來Win8中各項(xiàng)應(yīng)用保持領(lǐng)先的前提。

● 更好的應(yīng)用體驗(yàn)

HD7970

    在應(yīng)用體驗(yàn)方面,南方群島在上一代北方群島的基礎(chǔ)上更上層樓。更加先進(jìn)的Eyefinity2.0和HD3D技術(shù)無疑讓A卡用戶有了更高端的視覺享受機(jī)會(huì)。

● 南方群島向NVIDIA發(fā)出強(qiáng)有力的挑戰(zhàn)

HD7970

    AMD曾經(jīng)背負(fù)效率低下罵名的SIMD架構(gòu),在HD6000終于笑到了最后。憑借超大規(guī)模的流處理器、以及改進(jìn)的雙超線程分配處理器,HD6000的效率比起HD5000有了明顯的提升。如果繼續(xù)優(yōu)化擴(kuò)充的老路,28nm工藝、43億個(gè)晶體管的HD7000性能飆升也是可以預(yù)期的。

    反觀NVIDIA架構(gòu)想要擴(kuò)充流處理器的話,需要耗費(fèi)更多的晶體管,由此導(dǎo)致NVIDIA的GPU核心面積要比AMD同級(jí)別產(chǎn)品大不少,而大核心除了成本較高之外,還得面對(duì)良品率較低、功耗較大的負(fù)面影響。既然如此,為何AMD還要進(jìn)行大規(guī)模的架構(gòu)革新?

    隨著技術(shù)的發(fā)展,圖形和計(jì)算的概念已經(jīng)不再像以往分的那么清楚了,進(jìn)入DX11時(shí)代時(shí)候,全新API新特性賦予GPU更多的任務(wù)和使命?!巴ㄓ糜?jì)算”這一專業(yè)術(shù)語越來越多的現(xiàn)于新聞、見諸報(bào)端。AMD作為全球領(lǐng)先的GPU制造廠商,為高性能計(jì)算做出了巨大的貢獻(xiàn),而這次AMD下定決定進(jìn)行大規(guī)模的架構(gòu)革新很大程度上也是為了這方面做出的考慮。

    AMD能夠在架構(gòu)革新的同時(shí),進(jìn)一步降低功耗與發(fā)熱,還能提升性能、增強(qiáng)功能實(shí)在難能可貴,而各方面都非常優(yōu)秀的HD7970無疑讓下一代NVIDIA旗艦的壓力增加不少!而2012顯卡市場注定不會(huì)寂寞!■<

0人已贊

關(guān)注我們