迎接開普勒第一彈:最強GPU最全爆料!
架構(gòu)方面,開普勒會有什么變化?
Tahiti的GCN架構(gòu)和沿用多年的VLIW架構(gòu)相比,可謂面目全非了。
Tahiti徹底拋棄VLIW架構(gòu)
通過Tahiti的整體架構(gòu)圖我們看到,傳統(tǒng)的SIMD流處理器陣列消失了,取而代之的是GCN陣列,Tahiti總計擁有2048個流處理器,這樣每個GCN陣列里面擁有64個流處理器?,F(xiàn)在來看看GCN陣列的微觀結(jié)構(gòu)。
GCN與GF100的SM何其相似
Tahiti的GCN陣列微觀結(jié)構(gòu)
GCN陣列里有4組SIMD單元,每組SIMD單元里面包括16個流處理器、或者說是標量運算器。GCN架構(gòu)已經(jīng)完全拋棄了此前5D/4D流處理器VLIW超長指令架構(gòu)的限制,不存在5D/4D指令打包-派發(fā)-解包的問題,所有流處理器以16個為一組SIMD陣列完成指令調(diào)度。簡單來說,以往是指令集并行,而現(xiàn)在是線程級并行。
GF100的SM(流處理器簇)微觀結(jié)構(gòu)
可以這么理解,一個GCN陣列與GF100當(dāng)中的一組SM相當(dāng),GF100的一組SM當(dāng)中有4組共計32個流處理器,而Tahiti的一組GCN當(dāng)中有4組共計64個流處理器。
在流處理器部分,終于不用費勁的把AMD和NVIDIA GPU架構(gòu)分開介紹了,因為GCN與SM已經(jīng)沒有本質(zhì)區(qū)別。剩下的只是緩存容量、流處理器簇的數(shù)量、線程調(diào)度機制的問題,雙方根據(jù)實際應(yīng)用自然會有不同的判斷,自家的前后兩代產(chǎn)品也會對這些數(shù)量和排列組合進行微調(diào)。
在流處理器部分,我們看到Tahiti與GF100如此相似,那么接下來看到緩存設(shè)計時,您可能會要驚呼了……看圖說話:
Tahiti的緩存結(jié)構(gòu)
最直觀的,Tahiti有一個容量為768KB二級緩存,這個容量與GF100的L2完全相同,都可以進行讀寫操作。
架構(gòu)方面AMD的浮點性能游戲性能一直不錯,通用計算方面則比較落后,反之NVIDIA最需要改進的就是對游戲性能影響很到的單精度浮點計算能力。總的來說NVIDIA的CUDA核心被AMD借鑒了個八九不離十,而AMD的三屏,公版數(shù)字供電很有可能在開普勒身上看到,趨勢顯而易見——兩大顯卡巨頭,在競爭的同時一直在互相模仿,取長補短。
有消息說GK104的單精度浮點效率0是Fermi的1.5-2倍,請注意這是效率,如果沒有架構(gòu)的真正革新,是不會有如此之大的提升的。又有小道消息說GK104居然會有1536流處理器!大家知道GF110才有512 CUDA核心,即便是28nm工藝也無法集成這么多的傳統(tǒng)CUDA核心!
既然AMD都借鑒NVIDIA的架構(gòu)了,NVIDIA會不會也來個拿來主義?這次開普勒是否會借鑒AMD的架構(gòu)優(yōu)點而彌補自身的缺點?或者之前流傳的規(guī)格都是錯的,小道消息才是正解?架構(gòu)方面NVIDIA之開普勒身上會不會有AMD架構(gòu)的影子?
也許上面的預(yù)測比較大膽,但有一點現(xiàn)在基本可以確定,ALU(Pixel Shader)規(guī)模的大幅放大以及分頻方案的放棄了。天下大勢合久必分分久必合,因為合有合的道理,分有分的原因。當(dāng)初的G71核心中,NV首次將ALU頻率和核心頻率分開,之后的G80開始ALU頻率可以自由設(shè)定,到GT200的固定倍頻,最后GF100ALU頻率是核心雙倍。
這些其實都是綜合考量當(dāng)時的游戲和硬件需求而設(shè)計的。
在Fermi時代雙倍頻設(shè)計讓NV得以用30%的ALU規(guī)模達成了60%的吞吐總量。節(jié)約了寶貴的晶體管強化周邊緩沖資源。
但ALU的頻率也不是沒有極限的,一方面過高的ALU運行頻率造就更高的局部發(fā)熱,另一方面核心頻率無法運行在更高的水平。當(dāng)工藝改進,核心頻率可以攀登更高水平的時候,棄用分頻技術(shù)也是情理之中。
胡謅指數(shù):★★★;
關(guān)注我們
