流處理器緣何差6倍!A/N GPU架構(gòu)解析
泡泡網(wǎng)顯卡頻道3月1日 經(jīng)常有網(wǎng)友問這樣的問題:“為什么ATI顯卡的流處理器要比NVIDIA多那么多,而性能卻差不多呢?”這個問題往簡單里說就是它們的算法不同,當(dāng)然這是不負(fù)責(zé)任的說法。往復(fù)雜里說那么三言兩語就講不清楚了,因為涉及到雙方GPU的核心架構(gòu)以及截然相反的設(shè)計理念。
在DX9時代,大家都是通過“(像素)管線”來衡量顯卡的性能等級,而到了DX10時代,統(tǒng)一渲染架構(gòu)的引入使得顯卡不再區(qū)分“像素”和“頂點”,因此“管線”這種說法逐漸淡出了大家的視野,取而代之的是全新的“流處理器”,“流處理器”的數(shù)量直接影響顯卡的性能。
從DX10到DX10.1再到DX11,轉(zhuǎn)眼間顯卡已經(jīng)發(fā)展到了第四代,但實際上不管ATI還是NVIDIA,它們的新一代顯卡都是在最早的DX10顯卡架構(gòu)基礎(chǔ)上不斷優(yōu)化、改進(jìn)、擴(kuò)充而來的。換句話說,即便是到了DX11時代,NVIDIA與ATI的性能大戰(zhàn)依然是G80與R600架構(gòu)的延續(xù)。
那么,我們就很有必要對雙方的GPU圖形架構(gòu)進(jìn)行深入研究,詳細(xì)分析各自的優(yōu)勢與劣勢,并且順便解答網(wǎng)友心中的疑惑:為什么A卡的流處理器要比N卡多很多?
● “管線”的由來——1個時鐘周期4次運算
在圖形處理中,最常見的像素都是由RGB(紅綠藍(lán))三種顏色構(gòu)成的,加上它們共有的信息說明(Alpha),總共是4個通道。而頂點數(shù)據(jù)一般是由XYZW四個坐標(biāo)構(gòu)成,這樣也是4個通道。在3D圖形進(jìn)行渲染時,其實就是改變RGBA四個通道或者XYZW四個坐標(biāo)的數(shù)值。為了一次性處理1個完整的像素渲染或幾何轉(zhuǎn)換,GPU的像素著色單元和頂點著色單元從一開始就被設(shè)計成為同時具備4次運算能力的算數(shù)邏輯運算器(ALU)。
傳統(tǒng)像素管線/Shader示意圖
數(shù)據(jù)的基本單元是Scalar(標(biāo)量),就是指一個單獨的值,GPU的ALU進(jìn)行一次這種變量操作,被稱做1D標(biāo)量。由于傳統(tǒng)GPU的ALU在一個時鐘周期可以同時執(zhí)行4次這樣的并行運算,所以ALU的操作被稱做4D Vector(矢量)操作。
SIMD架構(gòu)示意圖
一個矢量就是N個標(biāo)量,一般來說絕大多數(shù)圖形指令中N=4。所以,GPU的ALU指令發(fā)射端只有一個,但卻可以同時運算4個通道的數(shù)據(jù),這就是SIMD(Single Instruction Multiple Data,單指令多數(shù)據(jù)流)架構(gòu)。
● “管線”弊端越發(fā)明顯,引入混合型設(shè)計
顯然,SIMD架構(gòu)能夠有效提升GPU的矢量處理性能,由于頂點和像素的絕大部分運算都是4D Vector,它只需要一個指令端口就能在單周期內(nèi)完成4倍運算量,效率達(dá)到100%。但是4D SIMD架構(gòu)一旦遇到1D標(biāo)量指令時,效率就會下降到原來的1/4,3/4的模塊被完全浪費。為了緩解這個問題,ATI和NVIDIA在進(jìn)入DX9時代后相繼采用混合型設(shè)計,比如R300就采用了3D+1D的架構(gòu),允許Co-issue操作(矢量指令和標(biāo)量指令可以并行執(zhí)行),NV40以后的GPU支持2D+2D和3D+1D兩種模式,雖然很大程度上緩解了標(biāo)量指令執(zhí)行效率低下的問題,但依然無法最大限度的發(fā)揮ALU運算能力,尤其是一旦遇上分支預(yù)測的情況,SIMD在矢量處理方面高效能的優(yōu)勢將會被損失殆盡。
改進(jìn)的管線/Shader結(jié)構(gòu)
可以這么理解,傳統(tǒng)的1條管線里面包含了4個基本運算單元,在早期這種架構(gòu)的執(zhí)行效率還是很高的,因為大多數(shù)程序指令都是4D的。但由于API和游戲復(fù)雜Shader指令的發(fā)展,4D指令所占比重開始下降,3D/2D/1D等混合指令頻繁出現(xiàn),所以傳統(tǒng)的管線式架構(gòu)效率越來越低!
到了DX10時代,不再區(qū)分像素單元和頂點單元,還加入了新的幾何著色單元,這樣GPU的Shader單元不僅要處理像素和頂點操作,還要負(fù)責(zé)幾何等其它操作,混合型指令所占比重越來越大,必須放棄傳統(tǒng)的管線式架構(gòu)。
● G80的標(biāo)量流處理器架構(gòu)
因此,NVIDIA從G80開始架構(gòu)作了變化,把原來的4D著色單元徹底打散,流處理器不再針對矢量設(shè)計,而是統(tǒng)統(tǒng)改成了標(biāo)量運算單元。每一個ALU都有自己的專屬指令發(fā)射器,初代產(chǎn)品擁有128個這樣的1D運算器,稱之為流處理器。這些流處理器可以按照動態(tài)流控制智能的執(zhí)行各種4D/3D/2D/1D指令,無論什么類型的指令執(zhí)行效率都能接近于100%!
G8X家族核心架構(gòu)圖
如此一來,對于依然占據(jù)主流的4D矢量操作來說,G80需要讓1個流處理器在4個周期內(nèi)才能完成,或者是調(diào)動4個流處理器在1個周期內(nèi)完成,那么G80的執(zhí)行效率豈不是很低?沒錯,所以NVIDIA大幅提升了流處理器工作頻率(兩倍于核心頻率),擴(kuò)充了流處理器的規(guī)模(128個),這樣G80的128個標(biāo)量流處理器的運算能力就基本相當(dāng)于傳統(tǒng)的64個(128×2/4)4D矢量ALU。
G8X/G9X系列:8個流處理器為一組,2x8=16個為一簇
當(dāng)然這只是在處理4D指令時的情形,隨著圖形畫面越來越復(fù)雜,1D、2D、3D指令所占比例正在逐年增多,而G80在遇到這種指令時可說是如魚得水,與4D一樣不會有任何效能損失,指令轉(zhuǎn)換效率高并且對指令的適應(yīng)性非常好,這樣G80就將GPU Shader執(zhí)行效率提升到了新的境界!
MIMD架構(gòu)示意圖
與傳統(tǒng)的SIMD架構(gòu)不同,G80的這種標(biāo)量流處理器被稱為MIMD(Multiple Instruction Multiple Data,多指令多數(shù)據(jù)流)架構(gòu)。G80的架構(gòu)聽起來很完美,但也存在不可忽視的缺點:根據(jù)前面的分析可以得知,4個1D標(biāo)量ALU和1個4D矢量ALU的運算能力是相當(dāng)?shù)?,但是前者需?個指令發(fā)射端和4個控制單元,而后者只需要1個,如此一來MIMD架構(gòu)所占用的晶體管數(shù)將遠(yuǎn)大于SIMD架構(gòu)!
G80的128個1D標(biāo)量ALU聽起來規(guī)模很龐大,而且將4D矢量指令轉(zhuǎn)換為4個1D標(biāo)量指令時的效率也能達(dá)到100%,但實際上如果用相同的晶體管規(guī)模,可以設(shè)計出更加龐大的ALU運算器,這就是R600的流處理器架構(gòu)。
● ATI改進(jìn)傳統(tǒng)架構(gòu),制造龐大規(guī)模的流處理器
與革命性的G80架構(gòu)不同,R600身上有很多傳統(tǒng)GPU的影子,其Stream Processing Units很像上代的Shader Units,它依然是傳統(tǒng)的SIMD架構(gòu)。
R600擁有4個SIMD陣列,每個SIMD陣列包括了16個Stream Processing Units,這樣總共就是64個,但不能簡單地認(rèn)為它擁有64個流處理器,因為R600的每個Units內(nèi)部包含了5個ALU:
我們來仔細(xì)看看R600的流處理器架構(gòu):Branch Execution Unit(分歧執(zhí)行單元)就是指令發(fā)射和控制器,它獲得指令包后將會安排至它管轄下5個ALU,進(jìn)行流控制和條件運算。General Purpose Registers(通用寄存器)存儲輸入數(shù)據(jù)、臨時數(shù)值和輸出數(shù)據(jù),并不存放指令。
由于內(nèi)部的5個1D ALU共享同一個指令發(fā)射端口,因此宏觀上R600應(yīng)該算是SIMD(單指令多數(shù)據(jù)流)的5D矢量架構(gòu)。但是R600內(nèi)部的這5個ALU與傳統(tǒng)GPU的ALU有所不同,它們是各自獨立能夠處理任意組合的1D/2D/3D/4D/5D指令,完美支持Co-issue(矢量指令和標(biāo)量指令并行執(zhí)行),因此微觀上可以將其稱為5D Superscalar超標(biāo)量架構(gòu)。
通過上圖就可以清楚的看到,單指令多數(shù)據(jù)流的超標(biāo)量架構(gòu)可以執(zhí)行任意組合形式的混合指令,在一個Stream Processing Units內(nèi)部的5個ALU可以在單時鐘周期內(nèi)進(jìn)行5次MAD(Multiply-Add,乘加)運算,其中比較“胖”的ALU除了MAD之外還能執(zhí)行一些函數(shù)(SIN、COS、LOG、EXP等)運算,在特殊條件下提高運算效率!
現(xiàn)在我們就知道R600確實擁有64x5=320個流處理器。R600的流處理器之所以能比G80多好幾倍就是得益于SIMD架構(gòu),可以用較少的晶體管堆積出龐大規(guī)模的流處理器。但是在指令執(zhí)行效率方面,SIMD架構(gòu)非常依賴于將離散指令重新打包組合的算法和效率,正所謂有得必有失。
通過前面的分析我們可以初步得出這樣的結(jié)論:G80的MIMD標(biāo)量架構(gòu)需要占用額外的晶體管數(shù),在流處理器數(shù)量和理論運算能力方面比較吃虧,但卻能保證超高的執(zhí)行效率;而R600的SIMD超標(biāo)量架構(gòu)可以用較少的晶體管數(shù)獲得很多的流處理器數(shù)量和理論運算能力,但執(zhí)行效率方面要依具體情況而定。
G80和R600都是不計成本的作品,成本高、功耗發(fā)熱大,隨著新工藝逐漸走向成熟,雙方不約而同的推出了改良版的核心,使得新高端產(chǎn)品的以大規(guī)模量產(chǎn),這就誕生了G92和RV670核心,這兩顆GPU雖然都擁有眾多誘人的新特性,但實際上核心架構(gòu)方面沒有任何的變化。
● G92相對于G80的改進(jìn):
1. 制造工藝由90nm升級至65nm;
2. 新工藝集成度更高,G92的GPU核心部分與2D輸出模塊(NVIO)合二為一,是單芯片設(shè)計;
3. PCI-E控制器升級支持2.0版本,帶寬倍增;
4. 高清視頻解碼引擎由VP1升級至VP2,支持MPEG2和H.264的完全硬解碼,VC-1部分硬解碼;
5. 加入HDCP支持和HDMI輸出支持;
6. 顯存控制器由384bit降至256bit,這是控制成本的需要。由于顯存控制器綁定光柵單元(ROP),因此G92的光柵單元只有16個,而G80是24個;
7. 紋理尋址單元數(shù)量加倍,紋理采樣效率提升。
在以上諸多改進(jìn)之中,只有這一項才是設(shè)計到核心架構(gòu)的,因此這里重點介紹:
G80的流處理器結(jié)構(gòu)
G92的流處理器結(jié)構(gòu)
上面兩幅架構(gòu)圖清楚的體現(xiàn)出了G80和G92的差異。NVIDIA GPU的流處理器簇和紋理單元還有一級緩存是綁定在一起的,G80的每簇內(nèi)建了8個紋理過濾單元(Texture Filtering Unit)和4個紋理尋址單元(Texture Addressing Unit),總共數(shù)目就是64個TFU和32個TAU。而G92則提升至每組內(nèi)建8個TFU和8個TAU,總共64個TFU和64個TAU,也就是紋理尋址單元數(shù)量加倍。
更多的TAU可令單一周期處理更多的紋理采樣操作,部分情況下紋理處理器效率提升一倍!雖然DX9C時代反復(fù)強調(diào)高像素/紋理比例,但DX10時代引入了更多的紋理操作,并且SM4.0支持更復(fù)雜的紋理陣列,以便讓物體表面擁有更豐富的細(xì)節(jié),并且在超高分辨率下也不至于失真,但也對紋理操作提出了較高的要求,NVIDIA此舉意在提升Call of Juarez、Crysis這種高精度游戲中的效率。
事實上,除了G80核心之外,G84、G86、G92、G96等所有衍生出來的小核心都改進(jìn)了紋理單元設(shè)計,也就是說從8600GT開始起紋理尋址單元的數(shù)量就與紋理過濾單元相等了,只是中低端顯卡的變化未能引起大家的重視。
● RV670相對于R600的改進(jìn):
1. 制造工藝由80nm升級至55nm;
2. PCI-E控制器升級支持2.0版本,帶寬倍增;
3. 高清解碼引擎由原來的Shader解碼升級為UVD引擎,支持H.264和VC-1的完全硬解碼;
4. 顯存控制器由512bit降至256bit,這是控制成本的需要,而且以R600和RV670的運算能力其實不需要太高的顯存位寬;
5. 支持PowerPlay節(jié)能技術(shù),待機功耗很低;
6. API升級至DX10.1;
雖然API升級了,但實際上只不過是加入了新的Shader Model 4.1指令集而已,流處理器架構(gòu)方面沒有變化,甚至光柵單元和紋理單元都沒有任何改動。
由于R600/RV670的架構(gòu)是顯存控制器并沒有綁定光柵單元,雖然RV670的顯存位寬減少了,但并沒有造成太多的性能損失,反而由于頻率的提升得以反超。因此G92相比G80是性能下降了,而RV670相比R600是有所提升,但最終的結(jié)果RV670和G92的差距依然很大。
可以看出,G92和RV670在技術(shù)方面的改進(jìn)其實都是差不多,真正最關(guān)鍵的(流處理器)核心架構(gòu)方面其實沒有任何變化。
G92雖然有著眾多G80所不具備的新特性,但本質(zhì)上來講它是G80削減成本的產(chǎn)物。而NVIDIA真正第二代DX10核心應(yīng)該是GT200才對,下面我們就看看GT200相對于G80的改進(jìn)。
● GT200架構(gòu)的變化
眾所周知,GT200最大的變化就是擁有240個流處理器,而且顯存位寬高達(dá)512bit,當(dāng)然這只是表象,真正核心架構(gòu)方面的改進(jìn)如下:
G80/G92擁有128個流處理器,這些流處理器分為8組TPC(線程處理器簇),每組16個SP(流處理器),這16個SP又分為兩組SM(多核流處理器),SM是不可拆分的最小單元,是8核心設(shè)計。
GTX200將TPC數(shù)量從8個擴(kuò)充至10個,而且在每個TPC內(nèi)部,SM從2個增加到3個,SM依然是8核心設(shè)計。如此一來,GTX200核心的流處理器數(shù)量就是,8×3×10=240個,幾乎是G80的兩倍,但卻不是256個。
紋理單元部分,GTX200的每個TPC內(nèi)部擁有8個TF,這樣總共就是8×10=80個紋理單元。G80/G92的流處理器與紋理單元的比率是128:64=2:1,而GT200的流處理器與紋理單元的比率是240:80=3:1,正是GT200微架構(gòu)方面的變化造成了這一結(jié)果。
● GTX200核心微架構(gòu)改進(jìn)
GTX200核心在流處理器、紋理單元數(shù)量上的擴(kuò)充是很容易理解的,其實除了擴(kuò)充規(guī)模之外,在架構(gòu)的細(xì)微之處還有不少的改進(jìn),這些都有助于提高新核心在未來游戲或通用計算中的執(zhí)行效能:
1. 每個SM可執(zhí)行線程上限提升:G80/G92核心每個SM(即不可拆分的8核心流處理器)最多可執(zhí)行768條線程,而GTX200核心的每個SM提升至1024條,而且GTX200擁有更多的SM,芯片實力達(dá)到原來的2.5倍!
2. 每個SM的指令寄存器翻倍:GTX200與G80核心在SM結(jié)構(gòu)上基本相同的,但功能有所提升,在執(zhí)行線程數(shù)增多的同時,NVIDIA還將每個SM中間的Local Memory容量翻倍(從16K到32K)。Local Memory用于存儲SM即將執(zhí)行的上千條指令,容量增大意味著可以存儲更多的指令、超長的指令、或是各種復(fù)雜的混合式指令,這對于提高SM的執(zhí)行效能大有裨益。
雙倍寄存器的優(yōu)勢:代表DX10性能的3DMarkVantage得分直接提升15%
當(dāng)前和未來的DX10游戲,越來越多的使用復(fù)雜的混合式Shader指令,一旦排隊中的超長指令溢出或者在N個周期內(nèi)都排不上隊,那么就會造成效率下降的情況,此時雙倍寄存器容量的優(yōu)勢就體現(xiàn)出來了。由于Local Memory并不會消耗太多晶體管,因此將其容量翻倍是很合算的。
顯然,RV670未能從R600失敗的陰影中走出來,而RV770則是AMD的揚眉吐氣之作,這顆相對GT200來說非常小巧的核心擁有不可思議的實力,現(xiàn)在我們就來回顧一下它的核心架構(gòu)細(xì)節(jié)。
● RV770架構(gòu)的變化
RV770的核心架構(gòu),它源自于R600,但青出于藍(lán)而勝于藍(lán),AMD對核心幾乎所有的模塊都進(jìn)行了改進(jìn),而且規(guī)模和數(shù)量方面大大加強。HD4850/4870令人驚訝的性能表現(xiàn)就是源自于核心架構(gòu)。
首先來看看流處理器部分:RV670/R600是4組SIMD,每組16個Shader,每個Shader 5個流處理器;RV770是10組SIMD,每組16個Shader,每個Shader 5個流處理器,也就是說流處理器部分只是單純的擴(kuò)充規(guī)模而已,并沒有任何改進(jìn)。
紋理單元和光柵單元部分,和流處理器一樣都是數(shù)量翻了2.5倍,但值得一提的是,抗鋸齒算法已經(jīng)由R600/RV670的流處理器部分轉(zhuǎn)移至光柵單元部分,因此RV770的AA效率大幅提高,一舉超越了所有N卡重現(xiàn)X1000時代的輝煌,這也就是RV770表現(xiàn)令人驚異的主要原因。
在紋理單元與顯存控制器之間設(shè)有一級緩存,RV770核心相比RV670,L1 TC容量翻倍,再加上數(shù)量同比增加2.5倍,因此RV770的總L1容量達(dá)到了RV670/R600的五倍之多!
另外,RV770還放棄了使用多年的環(huán)形總線,估計是因為高頻率下數(shù)據(jù)存取命中率的問題,回歸了交叉總線設(shè)計,有效提高了顯存利用率,并節(jié)約了顯存帶寬。
總的來說,雖然流處理器部分沒有做改動,但RV770的整體架構(gòu)相對于RV670可以說是脫胎換骨,這也是它大獲成功的奧秘所在!
在大獲成功的RV770基礎(chǔ)上,AMD率先發(fā)布了首顆DX11圖形核心——RV870,當(dāng)然現(xiàn)在AMD已經(jīng)不使用數(shù)字來命名GPU核心的,它的真正代號是Cypress。
● Cypres架構(gòu)的變化
除了顯存位寬維持256bit不變之外,Cypress的其它所有規(guī)格都正好是RV770的兩倍,而且在流處理器部分可以看作是雙核心的設(shè)計,幾乎就是并排放置了兩顆RV770核心:
為什么要使用這種雙核心的設(shè)計呢?因為當(dāng)流處理器擴(kuò)充至1600個這樣的恐怖規(guī)模時,不僅芯片設(shè)計制造的難度非常高,而且相應(yīng)的緩存和控制模塊難以管理協(xié)調(diào)如此眾多的流處理器,因此一分為二的做法效率將會更高。
Cypress這樣的結(jié)構(gòu)與雙核CPU十分相似,兩顆“核心”各自獨立,獨享L1、共享L2和內(nèi)存控制器等其他總線模塊,而兩顆“核心”之間則通過專用的數(shù)據(jù)共享及請求總線通信。
為了配合這兩顆“核心”眾多流處理器的工作,裝配引擎內(nèi)部設(shè)計有雙倍的Rasterizer(光柵器)和Hierarchial-Z(多級Z緩沖模塊),這是與RV770最大的不同。
在流處理器部分,RV870相對于RV770改進(jìn)有限,只是加入了DX11新增的位操作類指令,并優(yōu)化了Sum of Absolute Differences(SAD,誤差絕對值求和)算法,指令執(zhí)行速度提升12倍,此項指令可以在OpenCL底層執(zhí)行。SAD算法應(yīng)用最多的就是H.264/AVC編碼的移動向量估算部分(約占整個AVC編碼總時間的80%),如此一來使用RV870做視頻編碼類通用計算時,性能會大幅提升!
基本上,除了新增DirectX 11支持之外,Cypress相對于RV770在架構(gòu)方面的改進(jìn)非常有限。HD5000系列主要是憑借40nm和新一代GDDR5顯存在功耗控制方面做的非常完美,雖然官方稱抗鋸齒效能大幅改進(jìn),但通過我們實際測試來看相對RV770提升非常小,因為RV770做的已經(jīng)非常優(yōu)秀了,另外HD5000系列的Eyefinity多屏顯示器技術(shù)是一大賣點。
Cypress已經(jīng)發(fā)布了半年之久,而NVIDIA方面的GF100依然是猶抱琵琶半遮面。GF100核心之所以延期這么久,一方面是因為NVIDIA遭遇了40nm新制程良率不足的困擾,另一方面GF100在核心架構(gòu)方面的改進(jìn)非常巨大,NVIDIA力圖打造一顆在DX11和GPU計算方面都趨于完美的核心。
● GF100架構(gòu)改進(jìn)要點預(yù)覽
如果說Cypress是“雙核心”設(shè)計的話,那么GF100的流處理器部分就是“四核心”設(shè)計,因為其raster units(光柵化引擎)是以GPC(線程處理器簇)為單位的,一式四份。而raster units的功能就是以流水線的方式執(zhí)行邊緣/三角形設(shè)定(Edge/Triangle Setup)、光柵化(Rasterization)、Z軸壓縮(Z-Culling)等操作。上頁我們介紹過Cypress的Rasterizer和Hierarchial-Z雙份的,而GF100則是四份的,雖然命名有所不同但功能是相同的。
另外,GF100擁有更多的PolyMorph(多形體引擎),是以SM(流處理器)為單位分配的,擁有多達(dá)16組。多形體引擎則要負(fù)責(zé)頂點拾取(Vertex Fetch)、細(xì)分曲面(Tessellation)、視口轉(zhuǎn)換(Viewport Transform)、屬性設(shè)定(Attribute Setup)、流輸出(Stream Output)等五個方面的處理工作,DX11中最大的變化之一細(xì)分曲面單元(Tessellator)就在這里,因此GF100的理論Tessellation性能將會遠(yuǎn)超Cypress,因為Cypress只有一個Tessellator單元。
至于流處理器核心部分,則是經(jīng)過了重新設(shè)計,與GT200/G92/G80相比是煥然一新,因此NVIDIA將其稱為CUDA核心而不再是流處理器。
GF100的512個CUDA核心都符合IEEE 754-2008浮點算法(Cypress也是如此)和完整的32位整數(shù)算法,而后者在過去只是模擬的,事實上僅能計算24-bit整數(shù)乘法;同時全面引入的還有積和熔加運算(Fused Multiply-Add/FMA)。此外雙精度浮點(FP64)性能大大提升,峰值執(zhí)行率可以達(dá)到單精度浮點(FP32)的1/2,而過去只有1/8,AMD從R600開始到現(xiàn)在的Cypress核心都是1/5,沒有做任何變化。
至于顯存控制器方面的改進(jìn),還有顯存ECC等外圍功能就不多做介紹了。總而言之,GF100核心是GPU自從進(jìn)入DX10時代以來,架構(gòu)變化最大的一次,在GPU圖形架構(gòu)和并行計算架構(gòu)方面都有了革命性的進(jìn)步,因此備受玩家和業(yè)界期待。現(xiàn)在據(jù)可靠消息表明GF100架構(gòu)的GTX480顯卡將在本月26日準(zhǔn)時發(fā)布,屆時我們將會為大家獻(xiàn)上全方位的架構(gòu)分析及性能評測,讓我們一同期待吧!■<
關(guān)注我們
