流處理器緣何差6倍!A/N GPU架構(gòu)解析
Cypress已經(jīng)發(fā)布了半年之久,而NVIDIA方面的GF100依然是猶抱琵琶半遮面。GF100核心之所以延期這么久,一方面是因為NVIDIA遭遇了40nm新制程良率不足的困擾,另一方面GF100在核心架構(gòu)方面的改進非常巨大,NVIDIA力圖打造一顆在DX11和GPU計算方面都趨于完美的核心。
● GF100架構(gòu)改進要點預覽
如果說Cypress是“雙核心”設(shè)計的話,那么GF100的流處理器部分就是“四核心”設(shè)計,因為其raster units(光柵化引擎)是以GPC(線程處理器簇)為單位的,一式四份。而raster units的功能就是以流水線的方式執(zhí)行邊緣/三角形設(shè)定(Edge/Triangle Setup)、光柵化(Rasterization)、Z軸壓縮(Z-Culling)等操作。上頁我們介紹過Cypress的Rasterizer和Hierarchial-Z雙份的,而GF100則是四份的,雖然命名有所不同但功能是相同的。
另外,GF100擁有更多的PolyMorph(多形體引擎),是以SM(流處理器)為單位分配的,擁有多達16組。多形體引擎則要負責頂點拾取(Vertex Fetch)、細分曲面(Tessellation)、視口轉(zhuǎn)換(Viewport Transform)、屬性設(shè)定(Attribute Setup)、流輸出(Stream Output)等五個方面的處理工作,DX11中最大的變化之一細分曲面單元(Tessellator)就在這里,因此GF100的理論Tessellation性能將會遠超Cypress,因為Cypress只有一個Tessellator單元。
至于流處理器核心部分,則是經(jīng)過了重新設(shè)計,與GT200/G92/G80相比是煥然一新,因此NVIDIA將其稱為CUDA核心而不再是流處理器。
GF100的512個CUDA核心都符合IEEE 754-2008浮點算法(Cypress也是如此)和完整的32位整數(shù)算法,而后者在過去只是模擬的,事實上僅能計算24-bit整數(shù)乘法;同時全面引入的還有積和熔加運算(Fused Multiply-Add/FMA)。此外雙精度浮點(FP64)性能大大提升,峰值執(zhí)行率可以達到單精度浮點(FP32)的1/2,而過去只有1/8,AMD從R600開始到現(xiàn)在的Cypress核心都是1/5,沒有做任何變化。
至于顯存控制器方面的改進,還有顯存ECC等外圍功能就不多做介紹了??偠灾珿F100核心是GPU自從進入DX10時代以來,架構(gòu)變化最大的一次,在GPU圖形架構(gòu)和并行計算架構(gòu)方面都有了革命性的進步,因此備受玩家和業(yè)界期待?,F(xiàn)在據(jù)可靠消息表明GF100架構(gòu)的GTX480顯卡將在本月26日準時發(fā)布,屆時我們將會為大家獻上全方位的架構(gòu)分析及性能評測,讓我們一同期待吧!■<
關(guān)注我們
