終極旗艦降臨!NV黑版TITAN首發(fā)測(cè)試
泡泡網(wǎng)顯卡頻道2月25日 科學(xué)、醫(yī)學(xué)、工程和金融各領(lǐng)域?qū)Ω咝阅懿⑿杏?jì)算需求日益增加,NVIDIA GPU則在不斷創(chuàng)新和滿足這種需求。NVIDIA現(xiàn)有的 Kepler GPU已經(jīng)重新定義和加速了以下領(lǐng)域的高性能計(jì)算(HPC)的功能,如地震處理、生化模擬、天氣和氣候建模、信號(hào)處理、計(jì)算金融、計(jì)算機(jī)輔助工程、計(jì)算流體力學(xué)和數(shù)據(jù)分析。
Kepler GK110由71億個(gè)晶體管組成,是有史以來架構(gòu)最復(fù)雜的微處理器。GK110新加了許多注重計(jì)算性能創(chuàng)新功能,目的是要成為NVIDIA Tesla和HPC市場(chǎng)上的并行處理動(dòng)力站。前不久NVIDIA終于發(fā)布了GK110核心的終極產(chǎn)品GTX TITIAN Black,它提供了超過每秒1萬億次雙精度浮點(diǎn)計(jì)算的吞吐量,DGEMM效率大于80%。
Kepler GK110 模具照片
其實(shí)早在數(shù)周之前就流傳出NVIDIA可能會(huì)推出黑版TITAN的消息,畢竟以前的TITAN被后來的GTX780Ti在游戲性能上超越不少,雙精度大顯存的黑TITAN問世算是在情理之中。Kepler GK110的不僅提高GPU的利用率,簡(jiǎn)化了并行程序設(shè)計(jì),而且有助于GPU在各種計(jì)算環(huán)境中部署,無論是從個(gè)人電腦還是超級(jí)計(jì)算機(jī),GTX TITAN Black都能獨(dú)當(dāng)一面。
Kepler GK110專為NVIDIA Tesla打造,其目標(biāo)是成為世界上并行計(jì)算性能最高的微處理器。GK110 不僅大大超過由 Fermi 提供的原始計(jì)算能力,而且非常節(jié)能,顯著減少電力消耗,同時(shí)產(chǎn)生的熱量更少。完整 Kepler GK110 實(shí)施包括 15 SMX 單元和六個(gè) 64 位內(nèi)存控制器。不同的產(chǎn)品將使用GK110 不同的配置。例如,某些產(chǎn)品可能部署 13 或 14 個(gè) SMX。在下面進(jìn)一步討論的該架構(gòu)的主要功能,包括:
1、新 SMX 處理器架構(gòu)
2、增強(qiáng)的內(nèi)存子系統(tǒng),在每個(gè)層次提供額外的緩存能力,更多的帶寬,且完全進(jìn)行了重新設(shè)計(jì),DRAM I/O 實(shí)施的速度大大加快。
3、貫穿整個(gè)設(shè)計(jì)的硬件支持使其具有新的編程模型功能
Kepler GK110 完整芯片框圖
GTX TITAN Black規(guī)格參數(shù)對(duì)比
GeForce GTX Titan Black Edition的默認(rèn)核心及顯存運(yùn)行頻率在Titan的基礎(chǔ)上被進(jìn)一步提升到了889/7000MHz,流處理器2880個(gè),紋理單元數(shù)量從GTX TITIAN的224個(gè)增加到了240個(gè),默認(rèn)Pixel Fillrate能力為42.6Gpixels/S,默認(rèn)Texture Fillrate能力為207.3G/S,顯存帶寬336GB/S。Titan Black Editon擁有5.11T Flops/S的單精度浮點(diǎn)運(yùn)算能力,同時(shí)其Titan的身份也帶來了近乎完整的生產(chǎn)力屬性,Titan Black Edition的雙精度浮點(diǎn)運(yùn)算能力未被限制,GeForce GTX Titan Black Edition保留了1/3速DP的運(yùn)算特征,雙精度浮點(diǎn)運(yùn)算能力為1.7T Flops/S。
性能/功率比
Kepler架構(gòu)的一個(gè)主要設(shè)計(jì)目標(biāo)是提高電源效率。設(shè)計(jì)Kepler時(shí),NVIDIA工程師應(yīng)用從Fermi中積累的經(jīng)驗(yàn),以更好地優(yōu)化Kepler、實(shí)現(xiàn)高效運(yùn)行。臺(tái)積電的 28nm 制造工藝在降低功耗方面起著重要的作用,但許多 GPU 架構(gòu)需要修改,以進(jìn)一步降低功耗,同時(shí)保持出色的性能。
Kepler每一個(gè)硬件設(shè)備都經(jīng)過設(shè)計(jì)和擦洗,以提供卓越的性能/ 功率比。出色性能/功率比的非常好的案例是Kepler GK110新流式多處理器 (SMX) 中的設(shè)計(jì),與最近Kepler GK104引入的 SMX 單元的許多方面類似,但計(jì)算算法包括更多雙精度單位。
Kepler GK110的新SMX引入幾個(gè)架構(gòu)創(chuàng)新,使其不僅成為有史以來最強(qiáng)大的多處理器,而且更具編程性,更節(jié)能。
SMX: 192個(gè)單精度CUDA核、64個(gè)雙精度單元、32個(gè)特殊功能單元(SFU)和32 個(gè)加載/存儲(chǔ)單元(LD/ST)。
SMX 處理核架構(gòu)
每個(gè)Kepler GK110 SMX單元具有192單精度CUDA核,每個(gè)核完全由浮點(diǎn)和整數(shù)算術(shù)邏輯單元組成。Kepler完全保留Fermi引入的IEEE 754-2008 標(biāo)準(zhǔn)的單精度和雙精度算術(shù),包括積和熔加(FMA)運(yùn)算。
Kepler GK110 SMX 的設(shè)計(jì)目標(biāo)之一是大大提高GPU的雙精度性能,因?yàn)殡p精度算術(shù)是許多HPC應(yīng)用的核心。Kepler GK110 的SMX還保留了特殊功能單元 (SFU)以達(dá)到和上一代GPU類似的快速超越運(yùn)算,所提供的SFU數(shù)量是Fermi GF110 SM的8倍。
與GK104 SMX單元類似,GK110 SMX單元內(nèi)的核使用主GPU頻率而不是2倍的著色頻率。2x著色頻率在 G80 Tesla 架構(gòu)的 GPU 中引入,并用于之后所有的 Tesla 和 Fermi‐架構(gòu)的GPU。在更高時(shí)鐘頻率上運(yùn)行執(zhí)行單元使芯片使用較少量的執(zhí)行單元達(dá)到特定目標(biāo)的吞吐量,這實(shí)質(zhì)上是一個(gè)面積優(yōu)化,但速度更快的內(nèi)核的時(shí)鐘邏輯更耗電。對(duì)于Kepler,我們的首要任務(wù)是的性能/功率比。雖然我們做了很多面積和功耗方面的優(yōu)化,但是我們更傾向優(yōu)化功耗,甚至以增
加面積成本為代價(jià)使大量處理核在能耗少、低GPU頻率情況下運(yùn)行。
Quad Warp Scheduler
SMX以32個(gè)并行線程為一組的形式調(diào)度進(jìn)程,這32個(gè)并行線程叫做Warp。而每個(gè)SMX中擁有四組 Warp Scheduler 和八組 Instruction Dispatch 單元,允許四個(gè)Warp同時(shí)發(fā)出執(zhí)行。Kepler 的 Quad Warp Scheduler 選擇四個(gè) Warp,在每個(gè)循環(huán)中可以指派每 Warp 2 個(gè)獨(dú)立的指令。與 Fermi 不同,F(xiàn)ermi 不允許雙精度指令和部分其他指令配對(duì),而 Kepler GK110 允許雙精度指令和其他特定沒有注冊(cè)文件讀取的指令配對(duì) 例如加載/存儲(chǔ)指令、紋理指令以及一些整數(shù)型指令。
每個(gè)Kepler SMX 包含4組Warp Scheduler,每組Warp Scheduler包含兩組 Instruction Dispatch單元。單個(gè)Warp Scheduler單元如上所示。
我們努力優(yōu)化SMX Warp Scheduler邏輯中的能源。例如,Kepler和Fermi Scheduler 包含類似的硬件單元來處理調(diào)度功能。其中包括:
a) 記錄長(zhǎng)延遲操作(紋理和加載的寄存器
b) Warp 內(nèi)調(diào)度決定(例如在合格的候選 Warp 中挑選出非常好的 Warp 運(yùn)行)
c) 線程塊級(jí)調(diào)度(例如,GigaThread 引擎)
然而,F(xiàn)ermi的scheduler還包含復(fù)雜的硬件以防止數(shù)據(jù)在其本身數(shù)學(xué)數(shù)據(jù)路徑中的弊端。多端口寄存器記錄板會(huì)紀(jì)錄任何沒有有效數(shù)據(jù)的寄存器,依賴檢查塊針對(duì)記錄板分析多個(gè)完全解碼的 Warp指令中寄存器的使用情況過,確定哪個(gè)有資格發(fā)出。
對(duì)于 Kepler ,我們認(rèn)識(shí)到這一信息是確定性的(數(shù)學(xué)管道延遲是不變量),因此,編譯器可以提前確定指令何時(shí)準(zhǔn)備發(fā)出,并在指令中提供此信息。這樣一來,我們就可以用硬件塊替換幾個(gè)復(fù)雜、耗電的塊,其中硬件塊提取出之前確定的延遲信息并將其用于在 Warp 間調(diào)度階段屏蔽Warp,使其失去資格。
新ISA編碼:每個(gè)線程255個(gè)寄存器
可由線程訪問的寄存器的數(shù)量在 GK110 中已經(jīng)翻了兩番,允許線程最多訪問 255 個(gè)寄存器。由于增加了每個(gè)線程可用的寄存器數(shù)量,F(xiàn)ermi 中承受很大寄存器壓力或泄露行為的代碼的速度能大大的提高。典型的例子是在 QUDA 庫中使用 CUDA 執(zhí)行格點(diǎn) QCD(量子色動(dòng)力學(xué))計(jì)算?;?QUDA fp64 的算法由于能夠讓每個(gè)線程使用更多寄存器并減少的本地內(nèi)存泄漏,所以其性能提高了 5.3 倍。
Shuffle 指令
為了進(jìn)一步提高性能,Kepler 采用 Shuffle 指令,它允許線程在 Warp 中共享數(shù)據(jù)。此前,Warp 內(nèi)線程之間的數(shù)據(jù)共享需要存儲(chǔ)和加載操作以通過共享內(nèi)存?zhèn)鬟f數(shù)據(jù)。使用 Shuffle 指令,Warp 可以讀取來自Warp 內(nèi)其他線程中任意排列的值。Shuffle 支持任意索引引用(即任何線程讀取任何其他線程)。有用的 Shuffle 子集包括下一線程(由固定量彌補(bǔ)抵消)和 Warp 中線程間 XOR “蝴蝶”式排列,也稱為 CUDA 性。
Shuffle 性能優(yōu)于共享內(nèi)存,因此存儲(chǔ)和加載操作能夠一步完成。Shuffle 也可以減少每個(gè)線程塊所需共享內(nèi)存的數(shù)量,因?yàn)閿?shù)據(jù)在 Warp 級(jí)交換也不需要放置在共享內(nèi)存中。在 FFT 的情況下,需要共享一個(gè) Warp 內(nèi)的數(shù)據(jù),通過使用 Shuffle 獲得 6%的性能增益。
此示例表明某些變量可以在 Kepler 中使用 Shuffle 指令。
原子運(yùn)算
原子內(nèi)存運(yùn)算對(duì)并行編程十分重要,允許并發(fā)線程對(duì)共享數(shù)據(jù)結(jié)構(gòu)執(zhí)行正確的讀‐修改‐寫運(yùn)算。原子運(yùn)算如 add、min、max 和 compare,swap 在某種意義上也是也是原子運(yùn)算,如果在沒有其他線程干擾的情況下執(zhí)行讀、修改和寫運(yùn)算。原子內(nèi)存運(yùn)算被廣泛用于并行排序、歸約運(yùn)算、建制數(shù)據(jù)結(jié)構(gòu)而同時(shí)不需要鎖定線程順序執(zhí)行。
Kepler GK110 全局內(nèi)存原子運(yùn)算的吞吐量較 Fermi 時(shí)代有大幅的提高。普通全局內(nèi)存地址的原子運(yùn)算吞吐量相對(duì)于每頻率一個(gè)運(yùn)算來說提高了 9 倍。獨(dú)立的全局地址的原子運(yùn)算的吞吐量也明顯加快,而且處理地址沖突的邏輯已經(jīng)變得更有效。原子運(yùn)算通常可以按照類似全局負(fù)載運(yùn)算的速度進(jìn)行處理。此速度的提高使得原子運(yùn)算足夠快得在內(nèi)核內(nèi)部循環(huán)中使用,消除之前一些算法整合結(jié)
果所需要的單獨(dú)的歸約傳遞。Kepler GK110 還擴(kuò)展了對(duì)全局內(nèi)存中 64‐位原子運(yùn)算的本機(jī)支持。除了 atomicAdd、atomicCAS 和 atomicExch(也受 Fermi 和 Kepler GK104 支持)之外,GK110 還支持以下功能:
atomicMin、atomicMax、atomicAnd、atomicOr、atomicXor
其他不受本機(jī)支持的原子運(yùn)算(例如 64 位浮點(diǎn)原子運(yùn)算)可以使用 compare‐and‐swap (CAS) 指令模擬。
紋理改進(jìn)
GPU 的專用硬件紋理單元對(duì)于需要取樣或過濾圖像數(shù)據(jù)的計(jì)算機(jī)程序來說是寶貴的資源。Kepler中的紋理吞吐量與 Fermi 相比有明顯提高,每個(gè)SMX單元包含16紋理過濾單元,對(duì)比Fermi GF110 SM 提高了4倍。
此外,Kepler改變了管理紋理狀態(tài)的方法。在Fermi時(shí)代,為讓GPU引用紋理,必須在固定大小綁定表中分配“槽”才能啟動(dòng) Grid。表中槽數(shù)量最終限制程序一次可以讀取多少個(gè)獨(dú)特的紋理。最終,在 Fermi 中限制程序僅可以同時(shí)訪問128紋理。
Kepler中有無綁定紋理,不需要額外步驟:紋理狀態(tài)已保存為內(nèi)存中的對(duì)象,硬件按需獲取這些狀態(tài)對(duì)象,綁定表過時(shí)。這有效地消除了計(jì)算程序引用獨(dú)特紋理數(shù)量的任何限制。相反,程序可以在任何時(shí)間映射紋理和通紋理處理周圍。
Kepler的內(nèi)存層次結(jié)構(gòu)與Fermi類似。Kepler架構(gòu)支持統(tǒng)一內(nèi)存加載和存儲(chǔ)的請(qǐng)求路徑,每個(gè)SMX 多處理器有一個(gè)L1緩存。Kepler GK110 還使編譯器指示為只讀數(shù)據(jù)增設(shè)一個(gè)新的緩存,如下所述。
64KB可配置共享內(nèi)存和L1緩存
在 Kepler GK110 架構(gòu)(如在上一代 Fermi 架構(gòu))中,每個(gè) SMX 有 64 KB 的片上存儲(chǔ)器,可配置為 48 KB 的 共享存儲(chǔ)器和 16 KB 的 L1 緩存,或配置為 16 KB 的共享存儲(chǔ)器和 48 KB 的 L1 緩存。Kepler 目前在配置共享存儲(chǔ)器的分配和 L1 緩存方面的靈活性更大,允許共享存儲(chǔ)器和 L1 緩存之間以 32KB/32KB 劃分。為了支持 SMX 單元增加的吞吐量,用于 64 位或更大負(fù)載運(yùn)算的共享存儲(chǔ)器帶寬相對(duì) Fermi SM 也增加一倍,到每主頻 256B。
48KB只讀‐數(shù)據(jù)緩存
除 L1 緩存之外,Kepler 為只讀數(shù)據(jù)引入 48 KB 緩存為了函數(shù)的持續(xù)時(shí)間。在 Fermi 時(shí)代,該緩存只能由紋理單元訪問。專家程序員通常發(fā)現(xiàn)它的優(yōu)勢(shì)是通過將數(shù)據(jù)映射為紋理來加載數(shù)據(jù),但這種方法有很多局限性。
在 Kepler 中,除了大大提高了該緩存的容量之外,還伴隨著紋理功力的提高,我們決定讓緩存為一般負(fù)載運(yùn)算直接訪問 SM 。使用只讀的路徑好處極大,因?yàn)樗关?fù)載和工作組的影響遠(yuǎn)離共享/L1緩存路徑。此外,其他情況下,只讀數(shù)據(jù)緩存更高的標(biāo)簽帶寬支持全速非對(duì)齊內(nèi)存訪問模式。
該路徑的使用是由編譯器自動(dòng)管理(通過參數(shù) C99 訪問任何變量或稱為常量的數(shù)據(jù)結(jié)構(gòu))。標(biāo)準(zhǔn)關(guān)鍵字 “const_restrict” 將被編譯器標(biāo)記以通過只讀數(shù)據(jù)緩存加載。
改進(jìn)的L2緩存
Kepler GK110 GPU 具有 1536KB 的專用 L2 緩存內(nèi)存,是 Fermi 架構(gòu)中 L2 的 2 倍。L2 緩存是SMX 單元之間主要數(shù)據(jù)統(tǒng)一點(diǎn),處理所有加載、存儲(chǔ)和紋理請(qǐng)求并提供跨 GPU 之間有效、高速的數(shù)據(jù)共享。Kepler 上的 L2 緩存提供的每時(shí)鐘帶寬是 Fermi 中的 2 倍。之前不知道數(shù)據(jù)地址的算法,如物理求解器、光線追蹤以及稀疏矩陣乘法,從高速緩存層次結(jié)構(gòu)中獲益匪淺。需要多個(gè)SM讀取相同數(shù)據(jù)過濾和卷積內(nèi)核也從中受益。
內(nèi)存保護(hù)支持
與 Fermi 相同,Kepler的注冊(cè)文件、共享內(nèi)存、L1 緩存、L2 緩存和 DRAM 內(nèi)存受單錯(cuò)糾正雙錯(cuò)檢測(cè) (SECDED) ECC 代碼保護(hù)。此外,只讀的數(shù)據(jù)緩存‐通過奇偶校驗(yàn)支持單錯(cuò)糾正,在奇偶校驗(yàn)錯(cuò)誤的情況下,緩存單元自動(dòng)使失效,迫使從 L2 讀取正確的數(shù)據(jù)。
ECC 校驗(yàn)位從 DRAM 獲取必定消耗一定量的帶寬,這會(huì)導(dǎo)致啟用 ECC和停用 ECC的運(yùn)算之間的差異,尤其對(duì)于內(nèi)存帶寬敏感的應(yīng)用程序。基于 Fermi 的經(jīng)驗(yàn),Kepler GK110 對(duì) ECC 校驗(yàn)位獲取處理進(jìn)行了幾項(xiàng)優(yōu)化。結(jié)果,經(jīng)內(nèi)部的計(jì)算應(yīng)用測(cè)試套件測(cè)量,開啟和關(guān)閉 ECC 的性能三角洲已經(jīng)平均降低 66%。
在混合 CPU‐GPU 系統(tǒng)中,由于 GPU 的性能/ 功率比提高,使應(yīng)用程序中大量并行代碼完全在GPU 高效運(yùn)行,提高了可擴(kuò)展性和性能。為了加快應(yīng)用程序的額外并行部分的處理,GPU必須支持更加多樣化的并行工作負(fù)載類型。
Dynamic Parallelism 是 Kepler GK110 引入的新功能,能夠讓 GPU 在無需 CPU 介入的情況下,通過專用加速硬件路徑為自己創(chuàng)造新的工作,對(duì)結(jié)果同步,并控制這項(xiàng)工作的調(diào)度。
在內(nèi)核啟動(dòng)時(shí),如果問題的規(guī)模和參數(shù)已知,那么 Fermi 在處理大型并行數(shù)據(jù)結(jié)構(gòu)時(shí)效果非常好。所有的工作是從主機(jī) CPU 啟動(dòng),會(huì)運(yùn)行到完成,并返回結(jié)果返回到 CPU。結(jié)果將被用來作為最終的解決方案的一部分,或通過 CPU 進(jìn)行分析,然后向 GPU 發(fā)送額外的處理請(qǐng)求以進(jìn)行額外處理。
在 Kepler GK110中,任何一個(gè)內(nèi)核都可以啟動(dòng)另一個(gè)內(nèi)核,并創(chuàng)建處理額外的工作所需的必要流程、事件以及管理依賴,而無需主機(jī) CPU 的介入。T 該架構(gòu)能讓開發(fā)人員更容易創(chuàng)建和優(yōu)化遞歸和數(shù)據(jù)依賴的執(zhí)行模式,并允許更多的程序直接運(yùn)行在 GPU 上??梢詾槠渌蝿?wù)釋放系統(tǒng)CPU,或可以用功能少的 CPU 配置系統(tǒng)以運(yùn)行相同的工作負(fù)載。
Dynamic Parallelism 允許應(yīng)用程序中更多的并行代碼直接由 GPU 本身啟動(dòng)(右側(cè)圖像),而不需要 CPU 的干預(yù)(左側(cè)圖像)。
Dynamic Parallelism 允許更多種并行算法在 GPU 上執(zhí)行,包括不同數(shù)量的并行嵌套循環(huán)、串行控制任務(wù)線程的并行隊(duì)或或卸載到 GPU 的簡(jiǎn)單的串行控制代碼,以便促進(jìn)應(yīng)用程序的并行部分的數(shù)據(jù)局部化。
因?yàn)閮?nèi)核能夠根據(jù)GPU 中間結(jié)果啟動(dòng)額外工作負(fù)載,程序員現(xiàn)在可以智能處理負(fù)載平衡的工作,以集中其大量資源在需要處理能力最大或與解決方案最有關(guān)的問題上。
一個(gè)例子是動(dòng)態(tài)設(shè)置數(shù)值模擬的 Grid。 通常 Grid 主要集中在變化最大的地區(qū),需要通過數(shù)據(jù)進(jìn)行昂貴的前處理。另外,均勻粗 Grid 可以用來防止浪費(fèi)的 GPU 資源,或均勻細(xì) Grid 可以用來確保捕獲所有功能,但這些選項(xiàng)的風(fēng)險(xiǎn)是在不太被注意的地區(qū)缺少模擬功能或“過度消費(fèi)”的計(jì)算資源。
有了 Dynamic Parallelism,可以在運(yùn)行時(shí)以數(shù)據(jù)依賴形式動(dòng)態(tài)確定‐Grid解決方案。以粗 Grid開始,模擬“放大”注意的區(qū)域,同時(shí)避免在變化不大區(qū)域中不必要的計(jì)算。雖然這可以通過使用一系列的 CPU 啟動(dòng)的內(nèi)核來完成,但是通過分析數(shù)據(jù)、作為單個(gè)模擬內(nèi)核部分啟動(dòng)額外工作讓 GPU 細(xì)化 Grid 本身要簡(jiǎn)單的多,消除了 CPU 的中斷以及CPU和GPU之間的數(shù)據(jù)傳輸。
圖片歸屬查爾斯· 里德
上面的例子說明了在數(shù)值模擬,采用動(dòng)態(tài)調(diào)整 Grid 的好處。為了滿足峰值的精度要求,固定的分辨率仿真必須運(yùn)行在整個(gè)模擬域過于精細(xì)的分辨率上,而多分辨率 Grid 根據(jù)當(dāng)?shù)氐淖兓癁槊總€(gè)區(qū)域應(yīng)用正確的模擬分辨率。
原來的一個(gè)困難是,GPU始終要優(yōu)化調(diào)度來自多個(gè)數(shù)據(jù)流的工作負(fù)載。Fermi 結(jié)構(gòu)支持從單獨(dú)數(shù)據(jù)流的16路并發(fā)內(nèi)核啟動(dòng),但最終數(shù)據(jù)流都復(fù)用相同的硬件工作隊(duì)列。這允許虛假的數(shù)據(jù)流內(nèi)依賴,要求在單獨(dú)數(shù)據(jù)流內(nèi)的其他內(nèi)核可以執(zhí)行之前就完成一個(gè)數(shù)據(jù)流內(nèi)依靠的內(nèi)核。雖然在某種程度上這可以通過使用廣度優(yōu)先啟動(dòng)順序緩解,但是隨著程序的復(fù)雜性的增加,這可以成為越來越難以有效地管理。
Kepler GK110 使用新 Hyper‐Q 特征改進(jìn)了這一功能。Hyper‐Q 允許 32 個(gè)并發(fā),硬件管理的連接( 對(duì)比 Fermi 的單一連接),增加了主機(jī)和 GPU 中 CUDA Work Distributor (CWD)邏輯之間的連接總數(shù)(工作隊(duì)列)。Hyper‐Q 是一種靈活的解決方案,允許來自多個(gè) CUDA 流、多個(gè)消息傳遞接口(MPI)進(jìn)程,甚至是進(jìn)程內(nèi)多個(gè)線程的單獨(dú)連接。以前遇到跨任務(wù)虛假串行化任務(wù)的應(yīng)用程序,限制了 GPU 的利用率,而現(xiàn)在無需改變?nèi)魏维F(xiàn)有代碼,性能就能得到 32 倍的大幅度提升。
Hyper‐Q 允許CPU和GPU之間更多的并發(fā)連接
每個(gè) CUDA 流在其自己硬件工作隊(duì)列管理,優(yōu)化流間的依賴關(guān)系,一個(gè)流中的運(yùn)算將不再阻止其他流,使得流能夠同時(shí)執(zhí)行,無需特別定制的啟動(dòng)順序,消除了可能的虛假依賴。Hyper‐Q 在基于 MPI 的并行計(jì)算機(jī)系統(tǒng)中使用會(huì)有明顯的優(yōu)勢(shì)。通常在多核 CPU 系統(tǒng)上運(yùn)行時(shí)創(chuàng)建傳統(tǒng)基于 MPI‐的算法,分配給每個(gè) MPI 進(jìn)程的工作量會(huì)相應(yīng)地調(diào)整。這可能會(huì)導(dǎo)致單個(gè)MPI 進(jìn)程沒有足夠的工作完全占據(jù) GPU。雖然一直以來多個(gè) MPI 進(jìn)程都可以共享 GPU,但是這些進(jìn)程可能會(huì)成為虛假依賴的瓶頸。Hyper‐Q 避免了這些虛假的依賴,大大提高了 MPI 進(jìn)程間共享 GPU 的效率。
Hyper‐Q 與 CUDA 流一起工作:左側(cè)顯示 Fermi 模式,僅 (C,P) 和 (R,X) 可以同時(shí)運(yùn)行,因?yàn)閱蝹€(gè)硬件工作隊(duì)列導(dǎo)致的流內(nèi)依賴。Kepler Hyper‐Q 模式允許所有流使用單獨(dú)的工作隊(duì)列同時(shí)運(yùn)行。
Kepler GK110 中的新功能,如 CUDA 內(nèi)核能夠利用 Dynamic Parallelism 在 GPU 上直接啟動(dòng)工作,需要 Kepler 中 CPU‐to‐GPU 工作流提供比 Fermi 設(shè)計(jì)增強(qiáng)的功能。Fermi中,線程塊的Grid可由CPU啟動(dòng),并將一直運(yùn)行到完成,通過 CUDA Work Distributor (CWD) 單元?jiǎng)?chuàng)建從主機(jī)到SM的簡(jiǎn)單單向工作流。Kepler GK110目的是通過GPU有效管理CPU和CUDA創(chuàng)建的工作負(fù)載來改進(jìn) CPU‐到‐GPU 的工作流。
我們討論了 Kepler GK110 GPU 允許內(nèi)核直接在GPU上啟動(dòng)工作的能力,重要的是要理解在Kepler GK110 架構(gòu)所做的變化,促成了這些新功能。Kepler 中,Grid 可從 CPU 啟動(dòng),就和Fermi 的情況一樣,但是新 Grid 還可通過編程由 CUDA 在 Kepler SMX 單元中創(chuàng)建。要管理CUDA 創(chuàng)建的 Grid 和主機(jī)生成的 Grid,在 Kepler GK110 中引入新 Grid Management Unit (GMU)。該控制單元管理并優(yōu)先化傳送到 CWD 要發(fā)送到 SMX 單元執(zhí)行的 Grid。
Kepler 中的 CWD 保留準(zhǔn)備好調(diào)度的 Grid,并能調(diào)度 32 個(gè)活動(dòng)的 Grid,這是 Fermi CWD 容量的兩倍。Kepler CWD 通過雙向鏈接進(jìn)行通信,允許 GMU 暫停新 Grid 的調(diào)度并保留掛起和暫停的 Grid,直到需要。GMU 也有到 Kepler SMX 單元的直接連接,允許 Grid 通過 Dynamic Parallelism 在 GPU 上啟動(dòng)其他工作,以將新工作傳回到 GMU 進(jìn)行優(yōu)先化和調(diào)度。如果暫停調(diào)度的額外工作量的內(nèi)核,GMU 將保持其為不活動(dòng),知道以來工作完成。
重新設(shè)計(jì)的 Kepler HOST 到 GPU 的工作流顯示新 Grid Management Unit,允許其管理主動(dòng)調(diào)度的 Grid、暫停調(diào)度、保留掛起和暫停的 Grid。
NVIDIA GPUDirect
當(dāng)處理大量的數(shù)據(jù)時(shí),提高數(shù)據(jù)吞吐量并降低延遲,對(duì)于提高計(jì)算性能是至關(guān)重要的。Kepler GK110 支持NVIDIA GPUDirect 中的 RDMA,目的是通過允許第三方設(shè)備,如 IB 適配器、NIC 和 SSD,直接訪問 GPU 內(nèi)存‐來提高性能。使用 CUDA 5.0 時(shí),GPUDirect 提供以下重要功能:
無需 CPU方面的數(shù)據(jù)緩沖, NIC 和 GPU 之間的直接內(nèi)存存取 (DMA)
顯著改善 GPU和其他網(wǎng)絡(luò)節(jié)點(diǎn)之間的 MPISend/ MPIRecv 效率。
消除了 CPU 帶寬和延遲的瓶頸
與各種第三方網(wǎng)絡(luò)、捕獲和存儲(chǔ)設(shè)備一起工作
如逆時(shí)偏移(用于石油和天然氣勘探地震成像)這樣的應(yīng)用程序,將大量影像數(shù)據(jù)分布在多個(gè)GPU。數(shù)以百計(jì)的 GPU 必須合作,以緊縮的數(shù)據(jù),經(jīng)常通信中間結(jié)果 GPUDirect 利用 P2P 和RDMA 功能為服務(wù)器內(nèi)或服務(wù)器之間“ GPU‐ 到‐GPU” 的通信的情況分配更高的總帶寬。
Kepler GK110 還支持其他功能 GPUDirect,如 Peer‐to‐Peer 和 GPUDirect for Video。
GPUDirect RDMA 允許網(wǎng)絡(luò)適配器這樣的第三方設(shè)備訪問GPU內(nèi)存,轉(zhuǎn)換為跨節(jié)點(diǎn)GPU之間直接傳輸。
一般測(cè)試的時(shí)候我們都是將設(shè)置手動(dòng)調(diào)整到最高,目的是壓榨顯卡的全部性能。但實(shí)際游戲的時(shí)候,根據(jù)顯卡的性能和游戲的需要,我們并不需要這么做,而在畫面質(zhì)量和游戲速度兩者之間達(dá)到非常好的平衡才是我們需要的結(jié)果,為了解決這個(gè)問題,NVIDIA發(fā)布了GeForce Experlence——一款智能設(shè)置游戲參數(shù)的軟件。
這款軟件在NVIDIA官網(wǎng)提供下載,安裝之后第一次運(yùn)行,GeForce Experlence會(huì)從NVIDIA的云端下載用戶所需的游戲設(shè)置。
▲ 通過云端硬件和游戲的數(shù)據(jù)匹配交換,GeForce Experlence可以優(yōu)化系統(tǒng)。
▲ GeForce Experlence的系統(tǒng)要求,支援主流硬件和系統(tǒng)
GeForce Experlence支持手動(dòng)調(diào)整游戲設(shè)置,也支持一鍵智能優(yōu)化,云端會(huì)根據(jù)用戶的電腦硬件配置和游戲的要求設(shè)置特效的高低,保證所有GeForce用戶非常好的的游戲體驗(yàn)。
電視機(jī)首次被開發(fā)出來時(shí)依賴的是陰極射線管 (CRT),陰極射線管通過在磷管表面上掃描電子束來工作。這些電子束造成管上的某個(gè)像素發(fā)光,當(dāng)以足夠快的速度激活足夠多的像素時(shí),CRT 就會(huì)呈現(xiàn)出全活動(dòng)視頻的效果。這些早期的電視具備 60Hz 刷新率主要是因?yàn)槊绹?guó)電網(wǎng)是 60Hz 交流電。將電視刷新率與電網(wǎng)相匹配,這讓早期的電子產(chǎn)品開發(fā)起來更加容易,而且也減少了屏幕上的電源干擾。
到了上世紀(jì)八十年代早期 PC 上市之時(shí),CRT 電視技術(shù)已經(jīng)十分普遍,同時(shí)在打造計(jì)算機(jī)專用顯示器方面也是最簡(jiǎn)單、最具性價(jià)比的技術(shù)。 60Hz 與固定刷新率成為了標(biāo)準(zhǔn),系統(tǒng)制造商學(xué)會(huì)了如何在不大完美的情形下物盡其用。在過去的三十年里,即便顯示器技術(shù)從已經(jīng)從 CRT 發(fā)展到了 LCD 和 LED,但是尚無大公司挑戰(zhàn)過這一想法,因此使 GPU 與顯示器刷新率同步依然是當(dāng)今整個(gè)行業(yè)的標(biāo)準(zhǔn)做法。
但問題是,顯卡并不以固定的速度渲染。事實(shí)上,即便在單一游戲的單個(gè)場(chǎng)景中,顯卡渲染的幀速率也會(huì)大幅變化,這種變化根據(jù) GPU 的瞬時(shí)負(fù)荷而定。因此在刷新率固定的情況下,要如何將 GPU 圖像搬到屏幕上呢? 第一個(gè)辦法就是完全忽略顯示器的刷新率,對(duì)中間周期掃描到顯示器的圖像進(jìn)行更新。這種辦法我們叫做「垂直同步關(guān)閉模式」,這也是大多數(shù)游戲玩家所使用的默認(rèn)方式。缺點(diǎn)是,當(dāng)單一刷新周期顯示兩幅圖像時(shí),在兩幅圖像交替時(shí)會(huì)出現(xiàn)非常明顯“撕裂線”,這種情況通常被稱作屏幕撕裂。
解決屏幕撕裂問題的老牌解決方案是打開垂直同步,強(qiáng)迫 GPU 延遲屏幕更新,直到顯示器開始進(jìn)入一個(gè)新的刷新周期為止。只要 GPU 幀速率低于顯示器刷新率,這個(gè)辦法就會(huì)導(dǎo)致卡頓現(xiàn)象。它還會(huì)增大延遲,導(dǎo)致輸入延遲。輸入延遲就是從按下按鈕到屏幕上出現(xiàn)結(jié)果這段時(shí)間的延遲。
更糟糕的是,許多玩家在碰到持續(xù)的垂直同步卡頓現(xiàn)象時(shí)會(huì)導(dǎo)致眼睛疲勞,還有人會(huì)產(chǎn)生頭痛和偏頭痛癥狀。這些情況推動(dòng)我們開發(fā)了自適應(yīng)垂直同步技術(shù),該技術(shù)是一種有效而備受贊譽(yù)的解決方案。盡管開發(fā)了這一技術(shù),垂直同步的輸入延遲問題現(xiàn)在依然存在,這是許多游戲發(fā)燒友所不能接受的,也是電子競(jìng)技職業(yè)玩家絕對(duì)不能容忍的。這些職業(yè)玩家會(huì)定制自己的 GPU、顯示器、鍵盤以及鼠標(biāo)以最大限度減少重新開始時(shí)的重大延遲問題。
傳統(tǒng)的垂直同步就是讓顯卡輸出的幀等液晶刷新。假設(shè)顯卡渲染的幀比顯示器更快,那就讓渲染出來的這一幀放在顯存里面等待下一個(gè)液晶刷新,這個(gè)周期里面即使游戲中的模型已經(jīng)發(fā)生位移或者改變,最后顯示器輸出的依然是之前的圖像。假設(shè)顯示器刷新比顯卡更快,那顯示器會(huì)輸出兩幀同樣的畫面。
不開啟G-SYNC的一邊要么出現(xiàn)撕裂,要么出現(xiàn)卡頓
往往這兩種情況交錯(cuò)進(jìn)行,我們看到的畫面就會(huì)抖動(dòng),看到的游戲世界就會(huì)和真實(shí)情況有著一定程度的非正常延時(shí)。這就是為什么即使我們的顯卡幀數(shù)跑到100FPS以上,我們依然感覺不是完全流暢的原因。
G-SYNC的出現(xiàn)讓這種情況徹底改觀,本質(zhì)上說G-SYNC可以從根源上杜絕撕裂和卡頓,因?yàn)镚-SYNC是在顯示器中加入一個(gè)芯片,讓顯示器聽從顯卡的命令確定實(shí)時(shí)的刷新頻率。簡(jiǎn)而言之就是顯卡渲染出一幀,顯示器就刷新一幀。這樣做的好處是無論場(chǎng)景渲染變化如何大,顯卡幀數(shù)如何波動(dòng),只要保持在一定的水平之上,我們看到的都是連貫平滑的圖像。
很明顯除了觀賞體驗(yàn)上發(fā)生了巨大變化以外,當(dāng) G-SYNC 與高速的 GeForce GTX GPU 和低延遲輸入設(shè)備搭配使用時(shí),線上游戲的玩家還將獲得重大的競(jìng)爭(zhēng)優(yōu)勢(shì)。無論是業(yè)余愛好者還是專業(yè)電子競(jìng)技選手,NVIDIA G-SYNC對(duì)他們來說無疑是一次必不可少的升級(jí)。
Unreal Engine 的架構(gòu)師就稱 G-SYNC技術(shù)為“自人類從標(biāo)清走向高清以來游戲顯示器領(lǐng)域最重大的飛躍”。
GeForce Experience 現(xiàn)已優(yōu)化了支持110多款游戲,下載用戶數(shù)量也早就超過了1000萬。而前不久GeForce Experience (GFE軟件)1.7版本加入了一個(gè)重大更新,那就是備受期待的ShadowPlay。
ShadowPlay演示:
ShadowPlay它是GFE中的一個(gè)簡(jiǎn)單易用的游戲錄制模塊,可充分利用 GeForce GTX 600 和 700 系列 GPU 中內(nèi)置的 H.264 編碼器達(dá)到高效率錄制游戲錄像的功能。通過利用這一硬件編碼器,ShadowPlay 對(duì)游戲幀速率的影響大大低于傳統(tǒng)的錄制應(yīng)用程序,傳統(tǒng)應(yīng)用程序會(huì)給 CPU 造成巨大壓力。由于幀速率更高,玩家可以享受到更加流暢的游戲體驗(yàn),而通過以 H.264 格式進(jìn)行編碼,ShadowPlay 避免了其它應(yīng)用程序中占用數(shù) GB 空間的大文件問題。這樣便節(jié)省了空間,更重要的是,通過避免不必要的硬盤顛簸,減少了卡頓現(xiàn)象。
ShadowPlay 具有兩種用戶配置模式。首先,與軟件本身同名的 Shadow 模式可不斷地錄制游戲畫面,最多可將 20 分鐘 (Windows 7 中為 10 分鐘) 的高品質(zhì) 1920x1080 片段保存到臨時(shí)文件中。如果你在游戲中上演了一次尤其令人難忘的行動(dòng),只要按下用戶自定義的快捷鍵,該片段就會(huì)保存到用戶所選的目錄中。這個(gè)文件接下來可以用免費(fèi)的 Windows Movie Maker 應(yīng)用程序進(jìn)行編輯,也可以使用任何其它兼容 .mp4 的視頻編輯程序,然后上傳至 YouTube 以便和友人或全世界分享。
另外一個(gè)方法是,啟用手動(dòng)模式,該模式就像傳統(tǒng)的游戲錄制程序一樣,可將整個(gè)會(huì)話保存到磁盤上。
要開始試用 GeForce ShadowPlay Beta,你將需要一顆 GeForce GTX 650 或更高型號(hào)的臺(tái)式機(jī) GPU、最新的 GeForce 驅(qū)動(dòng)程序以及 GeForce Experience 1.7。一旦安裝了 GeForce Experience,即可點(diǎn)擊屏幕右上角專門的 ShadowPlay 按鈕,然后打開出現(xiàn)的新控制面板中的開關(guān)。利用四個(gè)按鈕和 Preferences 按鈕,用戶可以根據(jù)自己的喜好來配置 ShadowPlay 的方方面面。請(qǐng)記住,只有在你按下游戲中的快捷鍵,視頻才會(huì)被錄制。這樣可防止無盡的視頻占滿你的硬盤。
外觀方面,GTX TITAN Black和GTX TITAN沒有明顯的差別,不對(duì)比的話還以為就是GTX TITAN呢。
▲ GTX TITAN Black
▲ GTX TITAN
最大的區(qū)別就是TITAN Black的“TITAN”字樣和透視玻璃都是黑色的,而普通版TITAN則是淺色和透明的。
▲ GTX TITAN Black
▲ GTX TITAN
散熱器也一模一樣,入手頗有份量,和一般顯卡相比,TITAN的散熱器構(gòu)造比較復(fù)雜,工藝也非常不錯(cuò),均熱板底座比普通純銅底座散熱效率更高。
這是TITAN Black的散熱器的核心部件,底座鰭片一體式的鍍鉻散熱模塊。
▲ GTX TITAN Black
▲ GTX TITAN
TITAN Black的PCB結(jié)構(gòu)緊湊,用料非常扎實(shí),仔細(xì)看可以發(fā)現(xiàn)Black版和普通GTX TITAN相比供電略有加強(qiáng),電容和mos都有增加,但依然沒有華碩的戰(zhàn)神、微星的閃電用料奢華。
▲ GTX TITAN Black
▲ GTX TITAN
GK110是集成了71億晶體管、擁有2880個(gè)流處理器的真正怪獸。Titan Black Editon擁有5.11T Flops/S的單精度浮點(diǎn)運(yùn)算能力!之前的GTX TITIAN 則只有2688流處理器,4.5T Flops/S的單精度浮點(diǎn)運(yùn)算能力。核心代號(hào)從之前的GK110-400升級(jí)到了GK110-430。
▲ GTX TITAN Black
▲ GTX TITAN
這張圖可以清楚看到,TITIAN BE加強(qiáng)了供電,MOS、電容數(shù)量和排列規(guī)則均有所改變,這重要是為了超頻做保證。
▲ GTX TITAN Black
▲ GTX TITAN
GTX TITIAN顯存芯片為三星出品的K4G20325F0-FC03,0.3ns三星的顯存顆粒,GTX TITAN Black則是選用了來自SK海力士的顆粒。都是正反24個(gè)顆粒組成了384bit、6GB容量的顯存規(guī)格,但GTX TITAN Black頻率更高達(dá)到了7000MHz!顯然一般平臺(tái)的1080P顯示器已經(jīng)不是TITAN Black所要挑戰(zhàn)的對(duì)象,未來的4K以上分辨率才是其真正對(duì)手。
安森美新推出的NCP4206六相PWM控制芯片,由于主控不帶驅(qū)動(dòng)IC,所以PCB上6顆標(biāo)著AZN的東西就是小型驅(qū)動(dòng)IC。
和普通版TITAN一樣,BE版TITAN的長(zhǎng)度也并不夸張,一般的機(jī)箱即可容納
NV高端顯卡經(jīng)典的接口組合:DP HDMI 雙DVI的陣型無論是對(duì)付多個(gè)顯示設(shè)備還是多種顯示設(shè)備均毫無壓力。
測(cè)試時(shí)所有游戲中開啟全部特效,包括4X抗鋸齒(AA)和16X各向異性過濾(AF)。雖然很多游戲提供了更高精度的AA,但由于實(shí)用價(jià)值不高,且沒有可對(duì)比性,所以不做測(cè)試。
目前也有部分顯示器是(1920x1200),游戲在這種分辨率下的性能表現(xiàn)與1920x1080差不多,F(xiàn)PS稍低一點(diǎn)點(diǎn),使用這種顯示器的朋友依然可以參考我們的測(cè)試成績(jī)。
GTX TITAN Black
● 測(cè)試平臺(tái)主板:技嘉G1.Sniper M3
技嘉 G1.Sniper M3是一款采用m-ATX板型設(shè)計(jì)的高端Z77主板,它結(jié)合了屢獲殊榮的G1.Killer設(shè)計(jì)理念,目標(biāo)是給玩家提供強(qiáng)大的性能。無論是內(nèi)建Creative專業(yè)級(jí)音效處理器、Sound Core3D高質(zhì)感音效輸出還是支持 cFosSpeed 與網(wǎng)絡(luò)加速技術(shù)的芯片,都是為了讓玩家能有最棒的娛樂和聯(lián)網(wǎng)游戲體驗(yàn)。
● 測(cè)試平臺(tái)電源:Antec HCP1200
安鈦克Antec HCP1200電源在世界超頻大賽中非常常見,通過了80PLUS認(rèn)證,轉(zhuǎn)換效率高達(dá)92.4%,支持4路12V輸出,最高電流72A,支持四卡SLI/交火。平均無故障運(yùn)行時(shí)間為10萬小時(shí)。配備一顆8cm靜音風(fēng)扇,運(yùn)行噪音極低。
● 測(cè)試平臺(tái)SSD:OCZ Vetrx3 240GB
OCZ的Vertex系列屬于它的高端固態(tài)硬盤,專門為高端玩家和存儲(chǔ)發(fā)燒友設(shè)計(jì)。隨著Sandforce控制器大紅大紫,OCZ也將Vertex系列升級(jí)到了全新的SF1200方案。如今SATA3.0 6Gbps接口大行其道,OCZ推出了基于SF2200系列主控芯片的Vertex 3固態(tài)硬盤,涵蓋60-480GB容量范圍。
既然針對(duì)平臺(tái)不同,測(cè)試項(xiàng)目自然也相去甚遠(yuǎn)。三大平臺(tái)除了PC追求極致性能外,筆記本和平板都受限于電池和移動(dòng)因素,性能不是很高,因此之前的3Dmark11雖然有三檔可選,依然不能準(zhǔn)確衡量移動(dòng)設(shè)備的真實(shí)性能。
3DMARK主界面
而這次Futuremark為移動(dòng)平臺(tái)量身定做了專有測(cè)試方案,新一代3DMark三個(gè)場(chǎng)景的畫面精細(xì)程度以及對(duì)配置的要求可謂天差地別。
Fire Strike、Cloud Gate、Ice Storm三大場(chǎng)景,他們分別對(duì)應(yīng)當(dāng)前最熱門的三大類型的電腦——臺(tái)式電腦、筆記本電腦和平板電腦。
最新的3DMARK軟件,最嚴(yán)苛的Fire Strike Extreme模式中,GTX TITAN BE以4959的成績(jī)遙遙領(lǐng)先于其它顯卡,即便是新3DMark比較偏A也絲毫動(dòng)搖不了它的王者地位。
<
3DMark11的測(cè)試重點(diǎn)是實(shí)時(shí)利用DX11 API更新和渲染復(fù)雜的游戲世界,通過六個(gè)不同測(cè)試環(huán)節(jié)得到一個(gè)綜合評(píng)分,藉此評(píng)判一套PC系統(tǒng)的基準(zhǔn)性能水平。
● 3DMark 11的特色與亮點(diǎn):
1、原生支持DirectX 11:基于原生DX11引擎,全面使用DX11 API的所有新特性,包括曲面細(xì)分、計(jì)算著色器、多線程。
2、原生支持64bit,保留32bit:原生64位編譯程序,獨(dú)立的32位、64位可執(zhí)行文件,并支持兼容模式。
3、新測(cè)試場(chǎng)景:總計(jì)六個(gè)測(cè)試場(chǎng)景,包括四個(gè)圖形測(cè)試(其實(shí)是兩個(gè)場(chǎng)景)、一個(gè)物理測(cè)試、一個(gè)綜合測(cè)試,全面衡量GPU、CPU性能。
4、拋棄PhysX,使用Bullet物理引擎:拋棄封閉的NVIDIA PhysX而改用開源的Bullet專業(yè)物理庫,支持碰撞檢測(cè)、剛體、軟體,根據(jù)ZLib授權(quán)協(xié)議而免費(fèi)使用。
3Dmark11大量特效堆砌出來的以假亂真的畫面讓高端也不能完全流暢運(yùn)行它,只有GTX TITAN BE稍微流暢一些。本次測(cè)試中所有顯卡一視同仁開啟Extreme模式,主流級(jí)和旗艦級(jí)性能差距依舊非常明顯。這個(gè)測(cè)試項(xiàng)目和最新的3DMARK軟件測(cè)試成績(jī)正好相反,N卡在3DMARK11中占據(jù)了不小優(yōu)勢(shì)。
對(duì)于現(xiàn)代顯卡測(cè)試而言,除了3DMark之外必不可少的項(xiàng)目就是來自俄羅斯的Unigine Heaven(天堂),尤以其高負(fù)載、高壓榨而知名?,F(xiàn)在,新一代3DMark發(fā)布之后,Unigine也奉上了全新的顯卡測(cè)試程序“Valley”(山谷)。
Valley正是Heaven的開發(fā)團(tuán)隊(duì)一手打造的,可以在最大程度上榨干GPU顯卡資源。這次場(chǎng)景來到了一個(gè)優(yōu)美空靈的山谷,群山環(huán)繞,郁郁蔥蔥,白雪皚皚,旭日初升,而且擁有極致的細(xì)節(jié),每一片花瓣、每一株小草都清晰可見。
主要技術(shù)特點(diǎn)包括:
— 場(chǎng)景面積達(dá)6400萬平方米,超高細(xì)節(jié)
— 整個(gè)場(chǎng)景可以完全自由瀏覽,并支持鳥瞰、漫步模式
— 先進(jìn)視覺技術(shù):動(dòng)態(tài)天空、體積云、陽光散射、景深、環(huán)境光遮蔽
— 所有植被、巖石均為實(shí)時(shí)渲染,而非貼圖
— 用戶可控的動(dòng)態(tài)天氣
— 支持立體3D、多屏幕
— 極限硬件穩(wěn)定性測(cè)試
— 基準(zhǔn)測(cè)試預(yù)設(shè)
— 監(jiān)視每一幀畫面對(duì)應(yīng)的GPU溫度和頻率
— 多平臺(tái)支持:Windows、Linux、Mac OS X
— 支持命令行自動(dòng)執(zhí)行
— CSV格式可定制報(bào)告
Unigine Valley分為基礎(chǔ)版、高級(jí)版、專業(yè)版三個(gè)版本,其中基礎(chǔ)版免費(fèi),支持測(cè)試預(yù)設(shè)、自定義設(shè)置、GPU監(jiān)視、交互模式,不支持循環(huán)測(cè)試(也就是拷機(jī)模式)、命令行、CSV報(bào)告,對(duì)于普通用戶和一般評(píng)測(cè)足夠用了。
Unigine Valley的場(chǎng)景面積達(dá)6400萬平方米,超高細(xì)節(jié),對(duì)顯卡渲染提出了很大的考驗(yàn),在未來的游戲中,類似的情況將會(huì)越來越多。GTX TITAN BE在極端HD模式下達(dá)到67.6FPS。
《孤島危機(jī)3》支持大量的高端圖形選項(xiàng)以及高分辨率材質(zhì)。在游戲中,PC玩家將能看到一系列的選項(xiàng),包括了游戲效果、物品細(xì)節(jié)、粒子系統(tǒng)、后置處理、著色器、陰影、水體、各向異性過濾、材質(zhì)分辨率、動(dòng)態(tài)模糊以及自然光。技術(shù)主管Marco Corbetta表示之所以《孤島危機(jī)2》并不包含這么多的選項(xiàng),是因?yàn)殚_發(fā)主機(jī)板的開發(fā)組實(shí)在是搞的太慢了。
● 實(shí)時(shí)體積煙云陰影(Real-Time Volumetric Cloud Shadows)
實(shí)時(shí)體積煙云陰影(Real-Time Volumetric Cloud Shadows)是把容積云,煙霧和粒子陰影效果結(jié)合起來的一種技術(shù)。和之前的類似技術(shù)相比,實(shí)時(shí)體積煙云陰影技術(shù)允許動(dòng)態(tài)生成的煙霧擁有體積并且對(duì)光線造成影響,和其他物體的紋理渲染互動(dòng)變化。
● 像素精度置換貼圖(Pixel Accurate Displacement Mapping)
像素精度置換貼圖(Pixel Accurate Displacement Mapping)可以讓CryEngine 3引擎無需借助DX11的細(xì)分曲面技術(shù)即可一次渲染出大量沒有明顯棱角的多邊形。此前crytek曾透露過正在考慮在主機(jī)上實(shí)現(xiàn)類似PC上需要DX11硬件才能實(shí)現(xiàn)的細(xì)分曲面效果,看來此言非虛,新型的位移貼圖技術(shù)來模擬細(xì)分曲面的效果。雖然實(shí)現(xiàn)原理完全不同,但效果看起來毫不遜色。
極度精細(xì)逼真,完全嵌合的植被(Tessellated Vegetation)
● 實(shí)時(shí)區(qū)域光照(Real-Time Area Lights)
實(shí)時(shí)區(qū)域光照(Real-Time Area Lights)從單純的模擬點(diǎn)光源照射及投影進(jìn)化到區(qū)域光照的實(shí)現(xiàn),以及可變半陰影(即投影隨著距離的拉長(zhǎng)出現(xiàn)模糊效果),更準(zhǔn)確的模擬真實(shí)環(huán)境的光照特性。
● 布料植被綜合模擬(Integrated Cloth & Vegetation Simulation)
布料植被綜合模擬(Integrated Cloth & Vegetation Simulation)其實(shí)在孤島危機(jī)1代中植被已經(jīng)有了非常不錯(cuò)的物理效果,會(huì)因?yàn)槿宋锝?jīng)過而擺動(dòng),但是這次crytek更加強(qiáng)化了這方面的效果,還有就是加入了對(duì)布料材質(zhì)的物理模擬,這方面之前只有nvidia的physx做得比較好。
● 動(dòng)態(tài)體積水反射(Dynamic Water Volume Caustics)
動(dòng)態(tài)體積水反射(Dynamic Water Volume Caustics)孤島危機(jī)1和2基本上在水的表現(xiàn)上集中在海水,很少有湖泊和類似大面積積水潭的場(chǎng)景,而這次crytek實(shí)現(xiàn)了超遠(yuǎn)視野的水面動(dòng)態(tài)反射。動(dòng)態(tài)體積水反射可以說是孤島危機(jī)2中的本地實(shí)時(shí)反射的一個(gè)延伸,是結(jié)合靜態(tài)環(huán)境采樣和動(dòng)態(tài)效果的新的水面反射技術(shù)。
絕密細(xì)分的蟾蜍驚艷絕倫,完全可以以假亂真!
作為新一代DX11游戲的畫質(zhì)標(biāo)桿,孤島危機(jī)3相比上一代對(duì)顯卡提出了更高的要求,而在這款代表著最尖端畫質(zhì)的游戲顯卡優(yōu)化做的非常出色,我們可以看到GTX TITAN BE以明顯優(yōu)勢(shì)領(lǐng)先普通版GTX TITAN!
這些年我們看到了不少形態(tài)各異的勞拉,從豐乳肥臀的動(dòng)作游戲主角到喜歡探索亞特蘭蒂斯文明的睿智貴族。不過我們從未見過這樣的勞拉。Crystal Dynamics的《古墓麗影9》讓我們看到了一個(gè)參加初次探險(xiǎn)的年輕勞拉,她遭遇海難被困在刀槍林立的小島上,必須將自己的智謀和求生欲望提升到極限。
劇情介紹:故事從年少時(shí)期的勞拉開始,勞拉所乘坐的“堅(jiān)忍號(hào)”仿佛是被宿命所呼喚,在日本海的魔鬼海遭遇到了臺(tái)風(fēng),不幸擱淺。勞拉也被迫到島上開始自己的求生經(jīng)歷。
古墓麗影9的游戲畫面較之前代上升了不少,游戲要求也提高了不少。
這是我們開啟不同畫質(zhì)的游戲截圖對(duì)比,可以看出“高”特效的畫質(zhì)已經(jīng)非常不錯(cuò)了。
古墓麗影9對(duì)A卡的優(yōu)化非常到位,但N卡驅(qū)動(dòng)后來也進(jìn)行了不斷的優(yōu)化,游戲性能得到大幅提升。在Benchmark測(cè)試中,1080P分辨率+“最高”畫質(zhì)下,GTX TITAN BE可以非常流暢的運(yùn)行。
由EA DICE工作室開發(fā)的《戰(zhàn)地3》采用了最新的“寒霜2”引擎,完美支持DirectX 11,并且擁有強(qiáng)大的物理效果,最大的亮點(diǎn)還是光照系統(tǒng),其渲染的場(chǎng)景已近乎亂真的地步,視覺效果堪稱絕贊。游戲還支持即時(shí)晝夜系統(tǒng),為玩家營(yíng)造一個(gè)親臨現(xiàn)場(chǎng)的真實(shí)環(huán)境。
寒霜2引擎最大的特點(diǎn)便是支持大規(guī)模的破壞效果。由于考慮到游戲的畫面表現(xiàn)以及開發(fā)成本,DICE放棄了以只支持DX9的WINDOWS XP操作系統(tǒng)。另外由于該引擎基于DX11研發(fā),向下兼容DX10,因而游戲只能運(yùn)行于WINDOWS VISTA以上的的操作系統(tǒng)。
在《戰(zhàn)地3》中,“寒霜引擎2”內(nèi)置的破壞系統(tǒng)已經(jīng)被提升至3.0版本,對(duì)于本作中的一些高層建筑來說,新版的破壞系統(tǒng)將發(fā)揮出電影《2012》那般的災(zāi)難效果,突如其來的建筑倒塌將震撼每一位玩家的眼球。
《戰(zhàn)地3》采用了ANT引擎制作人物的動(dòng)作效果。在此之前,ANT引擎已在EA Sports旗下的《FIFA》等游戲中得到應(yīng)用,不過在FPS游戲中使用尚屬首次。相較于Havok等物理引擎,用ANT引擎可以花費(fèi)較少的精力制作出逼真的效果。舉例來說,戰(zhàn)士在下蹲時(shí)會(huì)先低頭俯身、放低槍口,而不是像以前的游戲那樣頭、身、槍如木偶般同時(shí)發(fā)生位移。此外,ANT引擎也可以讓電腦AI的行動(dòng)更加合理。但這款大作目前并不能良好的兼容120Hz3D以及紅藍(lán)3D模式。
寒霜2引擎大作戰(zhàn)地三,是為數(shù)不多的畫面可以挑戰(zhàn)Crysis的游戲大作,而對(duì)核心和顯存的要求已經(jīng)超越了Crysis!越是要求變態(tài)的游戲,旗艦級(jí)顯卡就越喜歡,這款游戲N卡整體占優(yōu)。
游戲介紹:《地鐵2033》(Metro 2033)是俄羅斯工作室4A Games開發(fā)的一款新作,也是DX11游戲的新成員。該游戲的核心引擎是號(hào)稱自主全新研發(fā)的4A Engine,支持當(dāng)今幾乎所有畫質(zhì)技術(shù),比如高分辨率紋理、GPU PhysX物理加速、硬件曲面細(xì)分、形態(tài)學(xué)抗鋸齒(MLAA)、并行計(jì)算景深、屏幕環(huán)境光遮蔽(SSAO)、次表面散射、視差貼圖、物體動(dòng)態(tài)模糊等等。
開啟景深,模擬鏡頭感
畫面設(shè)置:《地鐵2033》雖然支持PhysX,但對(duì)CPU軟件加速支持的也很好,因此使用A卡玩游戲時(shí)并不會(huì)因PhysX效果而拖累性能。該游戲由于加入了太多的尖端技術(shù)導(dǎo)致要求非常BT,以至于我們都不敢開啟抗鋸齒進(jìn)行測(cè)試,只是將游戲內(nèi)置的效果調(diào)至最高。游戲自帶Benchmark,這段畫戰(zhàn)斗場(chǎng)景并不是很宏大,但已經(jīng)讓高端顯卡不堪重負(fù)了。
測(cè)試說明:如果說是CRYSIS發(fā)動(dòng)了DX10時(shí)代的顯卡危機(jī),那地鐵2033無疑是DX11時(shí)代的顯卡殺手!地鐵2033幾乎支持當(dāng)時(shí)可以采用的所有新技術(shù),在畫面雕琢上大肆鋪張,全然不顧顯卡們的感受,和CRYSIS如出一轍。然而CRYSIS靠著特效的堆積和不錯(cuò)的優(yōu)化,其驚艷絕倫的畫面和DX9C游戲拉開了距離,終究賺足了眼球;而地鐵則沒有這么好運(yùn)了,畫面固然不差,BUG卻是很多,招來了大量的非議。
地鐵2033,一款銷量慘淡,游戲性被人遺忘但卻家喻戶曉的游戲,DX11游戲中的奇葩。這款游戲本來是A卡優(yōu)勢(shì)項(xiàng)目,但GTX TITAN BE依然憑借強(qiáng)勁的實(shí)力領(lǐng)先對(duì)手。
游戲引擎開發(fā)商BitSquid與游戲開發(fā)商Fatshark近日聯(lián)合公布了一個(gè)展示DX11強(qiáng)大技術(shù)的DEMO。這個(gè)名為《StoneGiant》(石巨人)的DEMO,可以讓玩家來測(cè)試自己PC顯卡的DX11性能。BitSquid Tech即將提供PC平臺(tái)的引擎,并且大概在今年第三季度將提供PS3和Xbox 360等其他平臺(tái)的引擎。
畫面設(shè)置:StoneGiant是一款技術(shù)演示Demo,畫面做的非常精美,進(jìn)入之后可以選擇開啟關(guān)閉Tessellation以及DOF(DX11級(jí)別景深)進(jìn)行測(cè)試,這兩項(xiàng)技術(shù)都十分消耗資源,尤其是同時(shí)打開時(shí)。其中Tessellation技術(shù)對(duì)畫質(zhì)的改善最為明顯,測(cè)試時(shí)默認(rèn)開啟Tessellation、打開DOF進(jìn)行測(cè)試。
測(cè)試方法:自帶Benchmark。
看得出來,A卡的“壓力”確實(shí)很大,Tessellation特效使用的越多,其表現(xiàn)就越差,這是架構(gòu)特性使然,但總的來說和上代相比進(jìn)步很多,和N卡的差距已經(jīng)越來越小了。
《Aliens vs. Predator》同時(shí)登陸PC、X360和PS3,其中PC版因?yàn)橹С諨X11里的細(xì)分曲面(Tessellation)、高清環(huán)境光遮蔽(HDAO)、計(jì)算著色器后期處理、真實(shí)陰影等技術(shù)而備受關(guān)注,是AMD大力推行的游戲之一,但是這樣的主題難免讓本作有很多不和諧的地方,暴力血腥場(chǎng)面必然不會(huì)少!發(fā)行商世嘉在2009年11月就曾明志,表示不會(huì)為了通過審查而放棄電子娛樂產(chǎn)品發(fā)行商的責(zé)任,因?yàn)橛螒蛞S持“異形大戰(zhàn)鐵血戰(zhàn)士”這一中心主題,無論畫面、玩法還是故事線都不能偏離。
畫面設(shè)置AVP原始版本并不支持AA,但升級(jí)至1.1版本之后,MSAA選項(xiàng)出現(xiàn)在了DX11增強(qiáng)特效當(dāng)中,當(dāng)然還支持Tessellation、HDAO、DirectCompute等招牌。該游戲要求不算太高,所以筆者直接將特效調(diào)至最高進(jìn)行測(cè)試。
測(cè)試方法:游戲帶Benchmark,其中測(cè)試畫面頗代表意義,很好的體現(xiàn)了Tessellation異形身體以及HDAO等高級(jí)特效,希望這些特效能讓系統(tǒng)發(fā)揮所有潛力。
AVP測(cè)試環(huán)節(jié)中2560分辨率下高端A卡表現(xiàn)很不錯(cuò),這主要是R9 290X 512bit大位寬和核心像素渲染速度的優(yōu)勢(shì)體現(xiàn)!
我們的功耗測(cè)試方法是直接統(tǒng)計(jì)整套平臺(tái)的總功耗,既簡(jiǎn)單、又直觀。測(cè)試儀器為微型電力監(jiān)測(cè)儀,它通過實(shí)時(shí)監(jiān)控輸入電源的電壓和電流計(jì)算出當(dāng)前的功率,這樣得到的數(shù)值就是包括CPU、主板、內(nèi)存、硬盤、顯卡、電源以及線路損耗在內(nèi)的主機(jī)總功率(不包括顯示器)。
待機(jī)為windows7桌面下獲得的最小值;滿載是以1680X1050模式運(yùn)行Furmark時(shí)的最大值,F(xiàn)urmark能夠讓顯卡穩(wěn)定的以100%滿負(fù)載模式運(yùn)行,測(cè)得的功耗值比一般的游戲要高一些。
● 顯卡空閑整機(jī)功耗測(cè)試(顯示器除外)
● 顯卡滿載整機(jī)功耗測(cè)試(顯示器除外)
● 顯卡滿載GPU溫度測(cè)試
待機(jī)功耗TITAN BE的表現(xiàn)不盡如人意,整機(jī)(不包含顯示器)達(dá)到了將近93W,滿載以后功耗控制倒是不錯(cuò),只有323W,比R9 290X低了不少,溫度測(cè)試方面,GTX TITAN BE也是憑借低功耗低發(fā)熱和散熱器雙重優(yōu)勢(shì)完勝對(duì)手。
如今,Kepler架構(gòu)終極形態(tài)GeForce GTX TITAN BE的發(fā)布,NVIDIA又一次提高了游戲行業(yè)的標(biāo)準(zhǔn),同時(shí)以GPU為核心的計(jì)算模式再次被發(fā)揚(yáng)光大。
Kepler GK110設(shè)計(jì)的初衷就是利用卓越的電源效率達(dá)到最大化計(jì)算性能和吞吐量。該架構(gòu)有很多創(chuàng)新,如SMX、Dynamic Parallelism 和 Hyper‐Q等等,這些功能不僅使混合計(jì)算大大簡(jiǎn)化,同時(shí)也簡(jiǎn)化了編程接口,有望催生出更優(yōu)秀的軟件,適用于更廣泛的應(yīng)用。
云計(jì)算也是NVIDIA一直在研究的重要課題
以后臺(tái)式電腦不僅僅是一臺(tái)PC而要承擔(dān)起家庭影音處理中心的任務(wù)
● GTX TITAN BE的優(yōu)勢(shì):
1. 游戲性能強(qiáng)悍;
2. 溫度噪音控制的非常理想;
3. 強(qiáng)勁的雙精度浮點(diǎn)運(yùn)算能力,6GB海量高速內(nèi)存;
● GTX TITAN BE的劣勢(shì):
1. 和未來的MAXWELL架構(gòu)旗艦相比,功耗性能都將不占優(yōu)勢(shì);(猜測(cè))
2. TITAN的晶體管數(shù)達(dá)到恐怖的71億,再加上6GB 384bit顯存,成本降不下來,售價(jià)無疑也是很昂貴,并非一般用戶可以承受。
目前沒有游戲可以對(duì)GTX TITAN BE構(gòu)成威脅
GK110以其無以倫比的性能證明了它是地球最快的GPU,而單芯卡皇的意義就在于,在那些對(duì)多卡支持不佳的游戲中也能發(fā)揮出過人的實(shí)力,而在多屏超大分辨率或3D立體游戲中,三塊TITAN BE的系統(tǒng)也將比兩塊GTX690更強(qiáng)大。從游戲顯卡的角度來看,GTX TITAN BE是一款接近完美的產(chǎn)品,擁有最強(qiáng)性能的同時(shí),還很好的控制住了功耗、發(fā)熱和噪音。從GPU計(jì)算的角度來說,在并行計(jì)算、超級(jí)計(jì)算機(jī)市場(chǎng),GK110核心更是如魚得水,事實(shí)上GTX TITAN的專業(yè)版Tesla K20X已經(jīng)被使用在了很多超級(jí)計(jì)算機(jī)之上,GTX TITAN BE讓追求極致和完美的用戶有了新的目標(biāo)!■<
關(guān)注我們
