成人伊人青草久久综合网,东京热tokyo综合久久精品,av香港经典三级级在线

泡泡網(wǎng)顯卡頻道 PCPOP首頁 / 顯卡 / 評(píng)測(cè) / 正文

從CPU架構(gòu)和技術(shù)的演變看GPU未來發(fā)展

2010年05月28日 00:01作者：孫敏杰編輯：孫敏杰文章出處：泡泡網(wǎng)原創(chuàng)

泡泡網(wǎng)顯卡頻道5月28日自從AMD提出Fusion(融聚)的概念、NVIDIA加大力度推廣GPU通用計(jì)算、Intel率先將CPU和GPU整合在一起之后，大家就會(huì)發(fā)現(xiàn)CPU和GPU從沒如此親密無間過，CPU和GPU之間有著太多的共同點(diǎn)使得它們的界限也開始模糊了起來。

喜歡研究IT硬件技術(shù)的朋友應(yīng)該知道，CPU和GPU都是由整數(shù)運(yùn)算單元、浮點(diǎn)運(yùn)算單元、一級(jí)緩存、二級(jí)緩存、內(nèi)存控制器等等模塊組成的，但最終它們的應(yīng)用領(lǐng)域又是截然不同的。

到底是GPU取代CPU進(jìn)行并行計(jì)算呢？還是CPU整合GPU成為大勢(shì)所趨？這兩種說法顯然是相互對(duì)立的，均有不少支持者。但這只是表像，真正產(chǎn)生這一現(xiàn)狀的原因依然隱藏在CPU和GPU的架構(gòu)之中，通過筆者后文中的分析您會(huì)發(fā)現(xiàn)這兩種說法不但不矛盾，反而代表了Intel、AMD和NVIDIA三大巨頭已經(jīng)達(dá)成的共識(shí)，他們正在以各自不同的方式去實(shí)現(xiàn)相同的目標(biāo)。

CPU和GPU的整體結(jié)構(gòu)相似，但側(cè)重點(diǎn)不同

事實(shí)上，CPU和GPU都保持著一套相對(duì)固定的趨勢(shì)，按照各自的軌跡在不停的發(fā)展、演變，兩者在技術(shù)和架構(gòu)方面有著很多不謀而合的共同點(diǎn)，而且最終也因?yàn)橄嗤哪康亩叩搅艘黄?。那么，CPU和GPU的碰撞將會(huì)亮出什么樣的火花，未來的發(fā)展方向會(huì)朝向何處呢？下面我們就通過CPU和GPU的發(fā)展史來推測(cè)未來產(chǎn)品應(yīng)該具備什么樣的特征。

首先我們來重拾一個(gè)幾乎快要被遺忘的名詞——協(xié)處理器，它是一種芯片，用于減輕系統(tǒng)微處理器的特定處理任務(wù)，早些年協(xié)處理器主要是用以輔助進(jìn)行浮點(diǎn)運(yùn)算。

★ 最初的CPU只能進(jìn)行整點(diǎn)運(yùn)算，浮點(diǎn)運(yùn)算效率極低

CPU最基本的運(yùn)算就是“加減乘除”，但實(shí)際上計(jì)算機(jī)只能用加法器來完成整數(shù)以及固定小數(shù)點(diǎn)位置（整點(diǎn)）的算術(shù)運(yùn)算，而不能處理小數(shù)點(diǎn)可以浮動(dòng)的數(shù)值（浮點(diǎn)）。對(duì)于小數(shù)多采用的是二進(jìn)制的科學(xué)計(jì)數(shù)法、也就是浮點(diǎn)數(shù)表示法：尾數(shù)、階數(shù)符號(hào)位各占一位，然后再對(duì)其余數(shù)位尾數(shù)、階數(shù)的有效數(shù)位合理分配。

在CPU運(yùn)算時(shí)，浮點(diǎn)數(shù)的運(yùn)算量遠(yuǎn)比整數(shù)復(fù)雜，因?yàn)椴粌H尾數(shù)要參與運(yùn)算，階數(shù)也要參與，并且需要對(duì)尾數(shù)和階數(shù)的符號(hào)位都進(jìn)行處理，所以，最早的CPU并沒有能力進(jìn)行浮點(diǎn)運(yùn)算（8088/8086，80286，80386SX），需要浮點(diǎn)運(yùn)算時(shí)，由CPU通過軟件模擬來實(shí)現(xiàn)，所以，進(jìn)行浮點(diǎn)運(yùn)算時(shí)就會(huì)慢很多。

★ 協(xié)處理器誕生，專門處理浮點(diǎn)運(yùn)算

8086處理器和它的協(xié)處理器8087

8086是當(dāng)今CPU的鼻祖，所謂X86架構(gòu)也就是指8086處理器所開創(chuàng)的指令集體系。為了彌補(bǔ)8086在進(jìn)行浮點(diǎn)運(yùn)算時(shí)的不足，Intel與1980年設(shè)計(jì)了8087數(shù)學(xué)協(xié)處理器，并且為X86體系推出了第一個(gè)浮點(diǎn)格式IEE754。8087提供兩個(gè)基本的32/64bit浮點(diǎn)資料形態(tài)和額外的擴(kuò)展80bit內(nèi)部支援來改進(jìn)復(fù)雜運(yùn)算之精度。除此之外，8087還提供一個(gè)80/17bit封裝BCD (二進(jìn)制編碼之十進(jìn)制）格式以及16/32/64bit整數(shù)資料形態(tài)。

386處理器和它的協(xié)處理器387

X87協(xié)處理器新增約60個(gè)指令給程序員，所有的指令都是以“F”開頭跟其他的標(biāo)準(zhǔn)8086整數(shù)運(yùn)算指令有所區(qū)別，舉例來說，相對(duì)于ADD/MUL，8087提供FADD/FMUL。

8087是于1980年發(fā)布，然后被80287、80387DX/SX和487SX所取代。

★ 協(xié)處理器被整合進(jìn)入CPU內(nèi)部

以往，協(xié)處理器都是可選配件，在主板上X86處理器旁邊一般都會(huì)為X87設(shè)計(jì)一個(gè)空的插槽，只有當(dāng)用戶確實(shí)有需要時(shí)才會(huì)專門購買相應(yīng)的X87協(xié)處理器插進(jìn)去，來加速浮點(diǎn)運(yùn)算。

486DX是第一顆整合了浮點(diǎn)運(yùn)算協(xié)處理器的產(chǎn)品，相當(dāng)于486SX+487SX

隨著時(shí)代的發(fā)展，越來越多的程序要求使用更高精度的浮點(diǎn)運(yùn)算，X87協(xié)處理器幾乎成為必備品。于是在制造工藝日趨成熟之后，Intel在486一代將X86和X87整合在了一起，浮點(diǎn)運(yùn)算成為了CPU的一項(xiàng)基本功能，而且重要性越來越大。

Intel 486DX、Pentium之后的CPU都內(nèi)含了協(xié)處理器，AMD K5、K6之后的CPU都內(nèi)建了協(xié)處理器，所以此后就很少有人會(huì)提及協(xié)處理器的概念了。

所謂X86架構(gòu)的處理器就是采用了Intel X86指令集的處理器，X86指令集是Intel公司為其第一塊16位處理器i8086所專門開發(fā)的。而IBM在1981年所推出的第一臺(tái)PC機(jī)上所使用的處理器i8088（i8086的簡(jiǎn)化版）也是使用的X86指令集，但是為了增強(qiáng)計(jì)算機(jī)的浮點(diǎn)運(yùn)算能力，增加了X87數(shù)學(xué)協(xié)助處理器并引入了X87指令集，于是就將采用了X86指令集和X87指令集的處理器統(tǒng)稱為X86架構(gòu)的處理器。

X86基本指令集包括了：數(shù)據(jù)傳輸、算術(shù)運(yùn)算、邏輯運(yùn)算、串指令、程序轉(zhuǎn)移、偽指令、寄存器、位操作、控制指令和浮點(diǎn)運(yùn)算指令等十大類無數(shù)條。而Intel和AMD桌面級(jí)處理器在X86指令集的基礎(chǔ)上，為了提升處理器各方面的性能，所以又各自開發(fā)新的指令集，它們被稱為處理器擴(kuò)展指令集。

從CPU架構(gòu)和技術(shù)的演變看GPU架構(gòu)發(fā)展

擴(kuò)展指令集能夠大幅提高CPU在某些特定應(yīng)用下的性能，如多媒體、3D、浮點(diǎn)運(yùn)算等，其設(shè)計(jì)初衷與協(xié)處理器是異曲同工的，但協(xié)處理器需要增加額外的運(yùn)算單元，而擴(kuò)展指令集只需要加入新的指令和算法即可，無需設(shè)計(jì)新的運(yùn)算單元，但必須要軟件支持才能發(fā)揮功效。

★ MMX指令集：增強(qiáng)多媒體性能

　　MMX（Multi Media eXtension 多媒體擴(kuò)展指令）指令集是Intel公司在1996年為旗下的Pentium系列處理器所開發(fā)的一項(xiàng)多媒體指令增強(qiáng)技術(shù)。MMX指令集中包括了57條多媒體指令，通過這些指令可以一次性處理多個(gè)數(shù)據(jù)，在處理結(jié)果超過實(shí)際處理能力的時(shí)候仍能夠進(jìn)行正常處理，如果在軟件的配合下，可以得到更強(qiáng)的處理性能。

MMX指令集非常成功，在之后生產(chǎn)的各型CPU都包括這些指令集。據(jù)當(dāng)年Tom''s Hardware測(cè)試，即使最慢的Pentium MMX 166MHz也比Pentium 200MHz普通版要快。

Intel Pentium With MMX，首次支持MMX

但是，MMX指令集的問題也是比較明顯的，MMX指令集不能與X86的浮點(diǎn)運(yùn)算指令同時(shí)執(zhí)行，必須做密集式的交錯(cuò)切換才可以正常執(zhí)行，但是這樣一來，就會(huì)造成整個(gè)系統(tǒng)運(yùn)行速度的下降。

★ 3DNow!指令集：

3DNow!指令集最由AMD公司所推出的，該指令集應(yīng)該是在SSE指令之前推出的，被廣泛運(yùn)用于AMD的K6-2和K7系列處理器上，擁有21條擴(kuò)展指令集。在整體上3DNow!的SSE非常相相似，它們都擁有8個(gè)新的寄存器，但是3DNow!是64位的，而SSE是128位。

AMD K62加入3DNow！指令集

所以3DNow!它只能存儲(chǔ)兩個(gè)浮點(diǎn)數(shù)據(jù)，而不是四個(gè)。但是它和SSE的側(cè)重點(diǎn)有所不同，3DNow!指令集主要針對(duì)三維建模、坐標(biāo)變換和效果渲染等3D數(shù)據(jù)的處理，在相應(yīng)的軟件配合下，可以大幅度提高處理器的3D處理性能。AMD公司后來又在Athlon系列處理器上開發(fā)了新的Enhanced 3DNow!指令集，新的增強(qiáng)指令數(shù)達(dá)了52個(gè)，以致目前最為流行的Athlon 64系列處理器還是支持3DNow！指令的。

★ SSE指令集：加強(qiáng)浮點(diǎn)和3D性能

　　SSE是Streaming SIMD Extension（SIMD擴(kuò)展指令集）的縮寫，而其中SIMD的為含意為Single Istruction Multiple Data（單指令多數(shù)據(jù)），所以SSE指令集也叫單指令多數(shù)據(jù)流擴(kuò)展。該指令集最先運(yùn)用于Intel的Pentium III系列處理器，其實(shí)在Pentium III推出之前，Intel方面就已經(jīng)泄漏過關(guān)于KNI（Katmai New Instruction）指令集的消息。這個(gè)KNI指令集也就是SSE指令集的前身，當(dāng)時(shí)也有不少的媒體將該指令集稱之為MMX2指令集，但是Intel方面卻從沒有發(fā)布有關(guān)MMX2指令集的消息。

奔騰3正式加入SSE指令集

　　最后在Intel推出Pentium III處理器的時(shí)候，SSE指令集也終于水落石出。SSE指令集是為提高處理器浮點(diǎn)性能而開發(fā)的擴(kuò)展指令集，它共有70條指令，其中包含提高3D圖形運(yùn)算效率的50條SIMD浮點(diǎn)運(yùn)算指令、12條MMX整數(shù)運(yùn)算增強(qiáng)指令、8條優(yōu)化內(nèi)存中的連續(xù)數(shù)據(jù)塊傳輸指令。理論上這些指令對(duì)當(dāng)時(shí)流行的圖像處理、浮點(diǎn)運(yùn)算、3D運(yùn)算、多媒體處理等眾多多媒體的應(yīng)用能力起到全面提升的作用。SSE指令與AMD公司的3DNow!指令彼此互不兼容，但SSE包含了3DNow!中的絕大部分功能，只是實(shí)現(xiàn)的方法不同而已。SSE也向下兼容MMX指令，它可以通過SIMD和單時(shí)鐘周期并行處理多個(gè)浮點(diǎn)數(shù)據(jù)來有效地提高浮點(diǎn)運(yùn)算速度。

★ SSE2指令集：進(jìn)一步優(yōu)化浮點(diǎn)運(yùn)算

　　在Pentium III發(fā)布的時(shí)候，SSE指令集就已經(jīng)集成在了處理器的內(nèi)部，但因?yàn)楦鞣N原因一直沒有得到充分的發(fā)展。直到Pentium 4發(fā)布之后，開發(fā)人員看到使用SSE指令之后，程序執(zhí)行性能將得到極大的提升，于是Intel又在SSE的基礎(chǔ)上推出了更先進(jìn)的SSE2指令集。

奔騰4初代就加入了SSE2指令集（AMD直到Athlon64才加入SSE2）

　　SSE2包含了144條指令，由兩個(gè)部分組：SSE部分和MMX部分。SSE部分主要負(fù)責(zé)處理浮點(diǎn)數(shù)，而MMX部分則專門計(jì)算整數(shù)。SSE2的寄存器容量是MMX寄存器的兩倍，寄存器存儲(chǔ)數(shù)據(jù)也增加了兩倍。在指令處理速度保持不變的情況下，通過SSE2優(yōu)化后的程序和軟件運(yùn)行速度也能夠提高兩倍。由于SSE2指令集與MMX指令集相兼容，因此被MMX優(yōu)化過的程序很容易被SSE2再進(jìn)行更深層次的優(yōu)化，達(dá)到更好的運(yùn)行效果。

SSE2對(duì)于處理器的性能的提升是十分明顯的，雖然在同頻率的情況下，Pentium 4和性能不如Athlon XP，但由于Athlon XP不支持SSE2，所以經(jīng)過SSE2優(yōu)化后的程序Pentium 4的運(yùn)行速度要明顯高于Athlon XP。而AMD方面也注意到了這一情況，在隨后的K-8系列處理器中，都加入SSE2指令集。

★ SSE3指令集：加強(qiáng)并行數(shù)據(jù)處理能力

　　SSE3指令是目前規(guī)模最小的指令集，它只有13條指令。它共劃分為五個(gè)應(yīng)運(yùn)層，分別為數(shù)據(jù)傳輸命令、數(shù)據(jù)處理命令、特殊處理命令、優(yōu)化命令、超線程性能增強(qiáng)五個(gè)部分，其中超線程性能增強(qiáng)是一種全新的指令集，它可以提升處理器的超線程的處理能力，大大簡(jiǎn)化了超線程的數(shù)據(jù)處理過程，使處理器能夠更加快速的進(jìn)行并行數(shù)據(jù)處理。

SSE3中13個(gè)新指令的主要目的是改進(jìn)線程同步和特定應(yīng)用程序領(lǐng)域，例如媒體和游戲。這些新增指令強(qiáng)化了處理器在浮點(diǎn)轉(zhuǎn)換至整數(shù)、復(fù)雜算法、視頻編碼、SIMD浮點(diǎn)寄存器操作以及線程同步等五個(gè)方面的表現(xiàn)，最終達(dá)到提升多媒體和游戲性能的目的。

Intel是從Prescott核心的Pentium 4開始支持SSE3指令集的，而AMD則是從2005年下半年Troy核心的Opteron開始才支持SSE3的。但是需要注意的是，AMD所支持的SSE3與Intel的SSE3并不完全相同，主要是刪除了針對(duì)Intel超線程技術(shù)優(yōu)化的部分指令。

★ SSSE3(SSE3S)指令集：加強(qiáng)多媒體圖形圖像處理

SSSE3（Supplemental Streaming SIMD Extensions 3）是Intel命名的SSE3指令集的擴(kuò)充，不使用新的號(hào)碼是因?yàn)镾SSE3比較像是加強(qiáng)版的SSE3，以至于推出SSSE3之前，SSE4的定義容易被混淆。在公開Intel的Core微架構(gòu)之時(shí)，SSSE3出現(xiàn)在Xeon 5100與Intel Core 2移動(dòng)版與桌面型處理器上。

65nm Core 2 Duo引入SSSE3指令集

SSSE3包含了16個(gè)新的不同于SSE3的指令。每一個(gè)都能夠運(yùn)作于64位的MMX寄存器或是128位XMM寄存器之中。因此，有些Intel的文件表示有32個(gè)新指令。SSSE3指令集增強(qiáng)了CPU的多媒體、圖形圖象處理、多媒體編碼、整數(shù)運(yùn)算和Internet等方面的處理能力。

★ SSE4.1指令集：大幅提升浮點(diǎn)運(yùn)算，優(yōu)化CPU和GPU數(shù)據(jù)共享

SSE4.1指令集被認(rèn)為是2001年以來Intel最重要的指令集擴(kuò)展，包含54條指令。Intel在Penryn處理器中加入了對(duì)SSE4.1的支持，共增加了47條新指令，令處理器的多媒體處理能力得到最大70%的提升。SSE4加入了6條浮點(diǎn)型點(diǎn)積運(yùn)算指令，支持單精度、雙精度浮點(diǎn)運(yùn)算及浮點(diǎn)產(chǎn)生操作，且IEEE 754指令 (Nearest, -Inf, +Inf, and Truncate) 可立即轉(zhuǎn)換其路徑模式，大大減少延誤，這些改變將對(duì)游戲及3D內(nèi)容制作應(yīng)用有重要意義。

此外，SSE4加入串流式負(fù)載指令，可提高以圖形幀緩沖區(qū)的讀取數(shù)據(jù)頻寬，理論上可獲取完整的快取緩存行，即每次讀取64Bit而非8Bit，并可保持在臨時(shí)緩沖區(qū)內(nèi)，讓指令最多可帶來8倍的讀取頻寬效能提升，對(duì)于視訊處理、成像以及GPU與CPU之間的共享數(shù)據(jù)應(yīng)用，有著明顯的效能提升。

45nm Core 2 Duo引入SSE4.1指令集

　　SSE4指令集讓45nm Penryn處理器增加了2個(gè)不同的32Bit向量整數(shù)乘法運(yùn)算單元，并加入8位無符號(hào)(Unsigned)最小值及最大值運(yùn)算，以及16Bit及32Bit有符號(hào) (Signed) 運(yùn)算。在面對(duì)支持SSE4指令集的軟件時(shí)，可以有效的改善編譯器效率及提高向量化整數(shù)及單精度代碼的運(yùn)算能力。同時(shí)，SSE4改良插入、提取、尋找、離散、跨步負(fù)載及存儲(chǔ)等動(dòng)作，令向量運(yùn)算進(jìn)一步專門。

★ SSE4.2指令集：優(yōu)化XML和交互式應(yīng)用性能

在Nehalem架構(gòu)的Core i7處理器中，SSE4.2指令集被引入，加入了STTNI（字符串文本新指令）和ATA（面向應(yīng)用的加速器）兩大優(yōu)化指令。STTNI包含了四條具體的指令。STTNI指令可以對(duì)兩個(gè)16位的數(shù)據(jù)進(jìn)行匹配操作，以加速在XML分析方面的性能。Intel表示，新指令可以在XML分析方面取得3.8倍的性能提升。

ATA包括冗余校驗(yàn)的CRC32指令、計(jì)算源操作數(shù)中非0位個(gè)數(shù)的POPCNT指令，以及對(duì)于打包的64位算術(shù)運(yùn)算的SIMD指令。CRC32指令可以取代上層數(shù)據(jù)協(xié)議中經(jīng)常用到的循環(huán)冗余校驗(yàn)，Intel表示其加速比可以達(dá)到6.5~18.6倍；POPCNT用于提高在DNA基因配對(duì)、聲音識(shí)別等包含大數(shù)據(jù)集中進(jìn)行模式識(shí)別和搜索等操作的應(yīng)用程序性能。

緩存的基本作用是用來加速數(shù)據(jù)的傳輸。在電腦當(dāng)中，由于內(nèi)存和硬盤本身的速度較慢，都需要一個(gè)可以加速指令執(zhí)行和數(shù)據(jù)預(yù)取的緩沖區(qū)，這個(gè)零時(shí)緩存就相當(dāng)于部隊(duì)里的集結(jié)待命區(qū)，它里邊的內(nèi)容是不斷的在變化的。

緩存的作用和原理

一級(jí)緩存(L1)是內(nèi)置在CPU芯片內(nèi)部的一個(gè)存儲(chǔ)區(qū)。二級(jí)緩存(L2)是第2塊“集結(jié)待命區(qū)”(Staging Areas)，它的用處就是給L1喂數(shù)據(jù)。L2可能內(nèi)置于CPU之中，也可能是MCP(Multichip Package Module)里的一個(gè)獨(dú)立芯片中，還可能是在主板上的一塊獨(dú)立存儲(chǔ)芯片里。

典型的，緩存一般是SRAM(Static RAM，靜止隨機(jī)存儲(chǔ)器，不需要刷新電路即能保存它內(nèi)部存儲(chǔ)的數(shù)據(jù))，而主內(nèi)存通常是DRAM(Dynamic RAM，動(dòng)態(tài)隨機(jī)存儲(chǔ)器，需要刷新電路)。SRAM非常消耗晶體管、成本高昂而且容量不可能做很大，因此最早的CPU都是沒有緩存的，后來才開始加入緩存芯片。

★ 插在主板上的二級(jí)緩存（或者整合在主板上）

Intel 430FX芯片組上Socket 5主板及256KB外置二級(jí)緩存

此前的CPU一直都是Socket接口設(shè)計(jì)，但以當(dāng)時(shí)的技術(shù)，直插式的設(shè)計(jì)無法在CPU上整合SRAM緩存芯片，只能將SRAM以擴(kuò)展卡的形式插在主板上或者直接整合在主板上。此后數(shù)代產(chǎn)品，Intel和AMD改用了Slot封裝形式，將SRAM芯片和CPU核心都集成在了Slot PCB上面，然后再插在主板上，這樣SRAM二級(jí)緩存就正式成為了CPU不可缺少的一部分。

★ 整合在CPU上的二級(jí)緩存

這是一顆核心代號(hào)為代Klamath、采用350nm工藝的Pentium處理器，CPU+SRAM的結(jié)構(gòu)，Slot 1接口?？瓷先ナ遣皇怯悬c(diǎn)像現(xiàn)在的GPU+DRAM顯存。實(shí)際上這樣做只是上CPU和SRAM綁定在了一起，二級(jí)緩存依然以核心頻率一半甚至更低的速度運(yùn)行，性能不甚理想。

★ “膠水”式的二級(jí)緩存

Pentium Pro是Intel P5 核心Pentium的延伸，在1995年11月以Socket 8封裝形式推出，它最大的特色是采用了雙芯片封裝形式，CPU和L2是各自獨(dú)立的，片上（Onchip）L2的好處是可以讓它以內(nèi)核相同的頻率運(yùn)行，而不必再像過去使用主板上較慢速度的L2，從而為“亂序執(zhí)行”所導(dǎo)致的大量?jī)?nèi)存超找提供了捷徑，直接提升了性能。

Pentium Pro把L1和L2同時(shí)設(shè)計(jì)在CPU的內(nèi)部，故Pentium Pro的體積較大。結(jié)果Pentium II又把L2 Cache移至CPU內(nèi)核之外的黑盒子里。這是因?yàn)長(zhǎng)2無法達(dá)到與核心相同的頻率，因此還是分離式比較靈活一點(diǎn)。

★ 整合進(jìn)CPU內(nèi)部的二級(jí)緩存

Pentium Pro不僅是第一款整合了二級(jí)緩存的CPU，而且是第一顆32bit CPU，不過由于它并不兼容當(dāng)時(shí)主流的16bit軟件，因此Pentium Pro曲高和寡，僅定位于高端服務(wù)器市場(chǎng)，并沒有得到廣泛認(rèn)可。此后Intel又發(fā)布了Pentium II XEON，同樣集成了片上全速二級(jí)緩存，在當(dāng)時(shí)全速二級(jí)緩存就代表著更高的性能。

Pentium Pro和Pentium II XEON并非民用產(chǎn)品，因此關(guān)注度并不高，而Pentium II去掉板載SRAM的產(chǎn)品被首次當(dāng)作Celeron來賣，雖然它價(jià)格很低廉，但由于L2徹底為0，因此性能損失也非常慘重。為此，Intel推出了第二代Celeron 300A和Celeron 333，新賽揚(yáng)的特點(diǎn)是在處理器芯片內(nèi)集成了128KB二級(jí)高速緩存，容量上雖然比Pentium II的512KB少很多，但新賽揚(yáng)的二級(jí)緩存在CPU內(nèi)部，是全速的片上緩存，而Pentium的二級(jí)緩存頻率只有核心的一半。正是這全速的二級(jí)緩存給與了Celeron質(zhì)的改變，極大的改善了賽揚(yáng)的整體性能，成為當(dāng)時(shí)市場(chǎng)上炙手可熱的一代經(jīng)典產(chǎn)品！

從CPU架構(gòu)和技術(shù)的演變看GPU架構(gòu)發(fā)展

首次出現(xiàn)三級(jí)緩存

而當(dāng)時(shí)的AMD也有一款經(jīng)典產(chǎn)品，同樣是因?yàn)榧闪巳俣?jí)緩存而讓性能產(chǎn)生質(zhì)的飛躍，性能遙遙領(lǐng)先與同代Intel處理器，它就是K6-II和K6-III。

K6-II和K6-III使用的是Socket 7插槽，其性能比Intel后來的Pentium 3都要強(qiáng)，為什么？因?yàn)檫@K6-III CPU均內(nèi)建了256KB的二級(jí)緩存，而且配套主板上還能再插2M容量的SRAM當(dāng)作三級(jí)緩存使用，此時(shí)的性能比Pentium II拉開了較大的差距，而且其價(jià)格還比較實(shí)惠。

★ 奔三和速龍初期依然用外置二級(jí)緩存，后期全部整合全速緩存

提起奔三和速龍相信很多人就比較熟悉了，它們應(yīng)該可以說是CPU的近代現(xiàn)代史了，不過奔三和速龍發(fā)布之初依然使用的Slot卡槽式封裝，二級(jí)緩存依然是外置式，運(yùn)行頻率只有核心速度的一半，性能受到了限制。

初期Slot 1和Slot A接口的Pentium III和Athlon

制造工藝改進(jìn)之后，Intel和AMD相繼把L2整合在了CPU內(nèi)部，成為單一的CPU核心，以大家喜聞樂見的Socket封裝形式出現(xiàn)，全速的L2讓奔三和速龍的性能都有所提升：

Socket 370和Socket A接口的Pentium III和Athlon

Pentium III和Athlon角逐1GHz大關(guān)的頻率大戰(zhàn)，最終Intel因?yàn)镻entium III 1.13GHz BUG問題而敗北。而其問題的關(guān)鍵就是內(nèi)置的二級(jí)緩存無法工作在1GHz以上的超高頻率下，從而產(chǎn)生不可預(yù)料的錯(cuò)誤。

CPU二級(jí)緩存之所以對(duì)CPU性能影響重大，就是因?yàn)閮?nèi)存的延遲較大、帶寬太小，滿足不了CPU密集型數(shù)據(jù)交換的需要，需要高速運(yùn)作中轉(zhuǎn)站二級(jí)緩存的支持。在二級(jí)緩存被CPU整合之后，大容量的內(nèi)存顯然是無法被整合到CPU里面的，那么如何才能進(jìn)一步優(yōu)化內(nèi)存性能呢？

從CPU架構(gòu)和技術(shù)的演變看GPU架構(gòu)發(fā)展

以往，CPU與內(nèi)存之間的通信是通過北橋和進(jìn)行的，準(zhǔn)確的說是北橋當(dāng)中的內(nèi)存控制器，它決定了系統(tǒng)能支持內(nèi)存的容量、頻率和延遲。為了盡可能的縮小CPU訪問內(nèi)存的時(shí)間，顯然CPU整合內(nèi)存控制器是最高效的方法。

從CPU架構(gòu)和技術(shù)的演變看GPU架構(gòu)發(fā)展

AMD率先將內(nèi)存控制器整合在了CPU當(dāng)中，Athlon 64這款劃時(shí)代的產(chǎn)品成為了一代經(jīng)典，當(dāng)然其成功的原因不僅僅是因?yàn)檎狭藘?nèi)存控制器，它還是第一顆64bit X86處理器，第一次使用了點(diǎn)對(duì)點(diǎn)的高速低延遲HT總線。AMD這次一領(lǐng)先就是五年，Intel直到Core i7時(shí)代才整合了內(nèi)存控制器。

AMD當(dāng)年為Athlon 64處理器整合了單通道DDR和雙通道DDR兩種內(nèi)存控制器，分別對(duì)應(yīng)754和939接口，此后逐步升級(jí)至雙通道DDR2和DDR3內(nèi)存控制器。而Intel是后來者居上，直接整合了三通道DDR3內(nèi)存控制器，中低端產(chǎn)品也整合了雙通道DDR3內(nèi)存控制器，分別對(duì)應(yīng)1366和1156接口。消除了內(nèi)存瓶頸之后的Core i3/i5/i7處理器性能更上一層樓，大幅領(lǐng)先于同級(jí)AMD產(chǎn)品。

高頻低能的Pentium 4和Pentium D苦苦抵抗Athlon 64和Athlon 64 X2瘋狂進(jìn)攻的同時(shí)，Intel也在秘密研發(fā)新一代Core微處理器架構(gòu)，全新的Core 2 Duo雖然沒有整合內(nèi)存控制器，但憑借高效率、低層級(jí)流水線和融合大量先進(jìn)技術(shù)的指令架構(gòu)，Core 2 Duo一舉擊敗Athlon 64 X2成為新的性能之王。

當(dāng)然，Intel還有另外一項(xiàng)創(chuàng)新性的技術(shù)也助Core 2 Duo一臂之力，拉大與對(duì)手的優(yōu)勢(shì)，它就是Intel Advanced Smart Cache（高級(jí)智能緩存技術(shù)），簡(jiǎn)單來講就是多顆處理器核心共享大容量緩存，通常被稱為共享式大容量二級(jí)緩存。

傳統(tǒng)的雙核心設(shè)計(jì)每個(gè)獨(dú)立的核心都有自己的L2，但I(xiàn)ntel Core微架構(gòu)則是通過核心內(nèi)部的Shared Bus Router共用相同的L2，當(dāng)CPU 1運(yùn)算完畢后把結(jié)果存在L2時(shí)，CPU 0便可通過Shared Bus Router讀取CPU 1放在共用L2上資料，大幅減低讀取上的延遲并減少使用FSB帶寬，同時(shí)加入L2 & DCU Data Pre-fetchers及Deeper Write output緩沖存儲(chǔ)器，大幅增加了緩存的命中率。

與AMD K8雙核心L2架構(gòu)相比，CPU 0需要讀取CPU 2 L2中數(shù)據(jù)時(shí)，首先需要向系統(tǒng)總線發(fā)出需求，并通過Crossbar Switch就把取讀資料，但CPU 0發(fā)現(xiàn)讀取自己的L2沒有所要的數(shù)據(jù)才會(huì)要求讀取CPU 1的L2資料，情況等同于CPU 0的L3，而共享式的L2設(shè)計(jì)卻沒有以上需要。

Smart Cache架構(gòu)還有很多不同的好處，例如當(dāng)兩顆核心工作量不平均時(shí)，如果獨(dú)立L2的雙核心架構(gòu)有機(jī)會(huì)出現(xiàn)其中一顆核心工作量過少，L2沒有被有效地應(yīng)用，但另一顆核心的L2卻因工作量過重，L2容量沒法應(yīng)付而需要傳取系統(tǒng)內(nèi)存，值得注意的是它并無法借用另一顆核心的L2空間，但SmartCache因L2是共用的而沒有這個(gè)問題。

共享式L2不但能夠減少兩顆核心之間讀取緩存數(shù)據(jù)的延遲、提高數(shù)據(jù)命中率，而且還能有效提高緩存利用率，避免分離式緩存存放重復(fù)數(shù)據(jù)的可能，變相提高的緩存容量。Intel上代的Core 2 Duo和Core 2 Quad至今在性能方面并不輸給AMD的Phenom II系列處理器，其中共享式二級(jí)緩存設(shè)計(jì)功不可沒。

★ 共享式三級(jí)緩存已成為主流：

共享式二級(jí)緩存固然擁有諸多優(yōu)勢(shì)，但需要對(duì)傳統(tǒng)CPU架構(gòu)進(jìn)行大幅調(diào)整，雙核心還算容易、多核心就比較麻煩了，緩存的存取機(jī)制都需要完全重新設(shè)計(jì)。因此AMD另辟蹊徑，在保持現(xiàn)有二級(jí)緩存不變的情況下，直接新增大容量的三級(jí)緩存，從而為多核提供協(xié)同運(yùn)算的高速暫存數(shù)據(jù)倉庫。

AMD初代的Phenom四核處理器就采用了共享式三級(jí)緩存設(shè)計(jì)，每顆核心的一級(jí)緩存保持不變，二級(jí)緩存都是獨(dú)立的512KB，三級(jí)緩存為一體式的2MB。而到了Phenom II代，45nm工藝使得處理器能夠整合更大容量的緩存，于是L3倍增至6MB，性能提升非常明顯。

歷史巨輪再度轉(zhuǎn)動(dòng)Corei7家族深度評(píng)測(cè)(3)

Core i7 Die示意圖

Intel在Core 2 Quad之后，也在醞釀全新的原生四核產(chǎn)品，此次Intel集所有先進(jìn)技術(shù)于一體，不僅整合了內(nèi)存控制器，而且引入了比AMD HT更先進(jìn)的QPI總線，還引入了共享式三級(jí)緩存，容量高達(dá)8MB，比Phenom II還多2MB。

至于低端的雙核Core i3/i5處理器，Intel為了保持架構(gòu)統(tǒng)一，也放棄了Core 2上面的共享二級(jí)緩存設(shè)計(jì)，每顆核心僅有256KB的獨(dú)立L2，而是植入了4M容量的L3，雖然總緩存容量不如E8X00系列的6MB L2，但性能上還是取得了長(zhǎng)足的進(jìn)步。

此后，32nm工藝的引入使得Intel可以在單一芯片之中集成更多的核心和更大的緩存，所以我們看到i7-980X擁有六顆物理核心以及高達(dá)12MB的L3，性能更上一層樓，令人嘆為觀止！

在了解了CPU的發(fā)展歷程之后，我們?cè)賮砜纯碐PU的發(fā)展過程，其實(shí)GPU很多重大改進(jìn)都與CPU的技術(shù)架構(gòu)相類似。比如最開始我們介紹了古老的CPU協(xié)處理器，下面再介紹一個(gè)被遺忘的產(chǎn)品——解壓卡，資歷較老的玩家應(yīng)該記得。

十多年前，電腦的CPU主頻很低，顯卡也多為2D顯示用，當(dāng)VCD興起的時(shí)候，好多電腦（主頻為100MHz以下）無法以軟解壓的方式看VCD影片，根本運(yùn)行不起來!

ISA接口的VCD解壓卡

這時(shí)，VCD解壓卡就出現(xiàn)了，此卡板載專用的解碼處理器和緩存，實(shí)現(xiàn)對(duì)VCD的硬解碼，不需要CPU進(jìn)行解碼運(yùn)算，所以，即使在386的電腦上也可以看VCD了。

PCI接口的DVD解壓卡

隨后，顯卡進(jìn)入了3D時(shí)代，并紛紛加入支持VCD的MPEG解碼，而且CPU的主頻也上來了，無論CPU軟解還是顯卡輔助解碼都可以流暢播放視頻，所以VCD解壓卡就退出了市場(chǎng)！

但DVD時(shí)代來臨后，分辨率提高很多，而且編碼升級(jí)至MPEG2，對(duì)于CPU和顯卡的解碼能力提出了新的要求，此時(shí)出現(xiàn)了一些DVD解壓卡，供老機(jī)器升級(jí)之用，但由于CPU更新?lián)Q代更加頻繁，性能提升很大，DVD解壓卡也是曇花一現(xiàn)，就消失無蹤了。

現(xiàn)在已經(jīng)是1080p全高清時(shí)代了，高清視頻解碼依然是非常消耗CPU資源的應(yīng)用之一，于是幾年前NVIDIA和ATI就在GPU當(dāng)中整合了專用的視頻解碼模塊，NVIDIA將其稱為VP（Video Processor，視頻處理器），ATI將其稱為UVD（Unified Video Decoder，通用視頻解碼器），相應(yīng)的技術(shù)被叫做PureVideo和AVIVO。

硬解碼幾乎不消耗CPU和GPU的資源，看高清視頻時(shí)接近于待機(jī)狀態(tài)

雖然VP和UVD都被整合在了GPU內(nèi)部，實(shí)際上它們的原理和作用與當(dāng)年的協(xié)處理器/解壓卡芯片沒有實(shí)質(zhì)性區(qū)別，都是為了減輕/分擔(dān)處理器的某項(xiàng)特定任務(wù)。如今NVIDIA和ATI的GPU硬解碼技術(shù)都能夠支持高分辨率、高碼率、多部影片同時(shí)播放，性能和兼容性都很出色。

如今多核CPU的性能已經(jīng)相當(dāng)強(qiáng)大了，軟解高清視頻簡(jiǎn)直輕松加愉快，但要論效率的話，依然是GPU硬件解碼更勝一籌，專用模塊解碼消耗資源更少，整機(jī)功耗發(fā)熱更小，因此手持設(shè)備和移動(dòng)設(shè)備都使用硬件解碼，而桌面電腦CPU軟解和GPU硬解就無所謂了。

掐指一算，從GPU誕生至今雙方都已推出了十代產(chǎn)品，每一代產(chǎn)品之間的對(duì)決都令無數(shù)玩家心動(dòng)不已，而其中最精彩的戰(zhàn)役往往在微軟DirectX API版本更新時(shí)出現(xiàn)，幾乎可以說是微軟DirectX左右著GPU的發(fā)展，而歷代DirectX版本更新時(shí)的核心內(nèi)容，恰恰包含在了ShaderModel當(dāng)中：

    ShaderModel 1.0 → DirectX 8.0
    ShaderModel 2.0 → DirectX 9.0b
    ShaderModel 3.0 → DirectX 9.0c
    ShaderModel 4.0 → DirectX 10
    ShaderModel 5.0 → DirectX 11

Shader（譯為渲染或著色）是一段能夠針對(duì)3D對(duì)象進(jìn)行操作、并被GPU所執(zhí)行的程序，ShaderModel的含義就是“優(yōu)化渲染引擎模式”，我們可以把它理解成是GPU的渲染指令集。

高版本的ShaderModel是一個(gè)包括了所有低版本特性的超集，對(duì)一些指令集加以擴(kuò)充改進(jìn)的同時(shí)，還加入了一些新的技術(shù)?？梢哉f，GPU的ShaderModel指令集與CPU的MMX、SSE等擴(kuò)展指令集十分相似。

從CPU架構(gòu)和技術(shù)的演變看GPU架構(gòu)發(fā)展

隨著ShaderModel指令集的擴(kuò)充與改進(jìn)，GPU的處理資源和計(jì)算精度與日俱增，于是就有能力渲染出更加精美的圖像，并且不至于造成性能的大幅下降。就拿最近幾個(gè)版本來講，新指令集并沒有帶來太多新的特效，但卻憑借優(yōu)秀的算法提升了性能，是否支持DX10.1（ShaderModel 4.1）可能游戲畫面上沒有差別，但速度就很明顯了。

此外，DX11中的關(guān)鍵技術(shù)DirectCompute通用計(jì)算技術(shù)就是通過調(diào)用ShaderModel 5.0中的新指令集來提高GPU的運(yùn)算效率，很多基于DirectCompute技術(shù)的圖形后處理渲染特效也都要用到SM5.0指令集來提高性能。

從以往的多處理器系統(tǒng)到現(xiàn)在的雙核、四核、六核，CPU只能依靠增加核心數(shù)量來提升性能。而GPU從一開始就是作為并行渲染的管線式架構(gòu)，GPU性能的強(qiáng)弱主要就是看誰的管線、流處理器數(shù)量更多。

不過雙顯卡甚至多顯卡也成為提升電腦游戲性能的一種途徑，通過SLI和CrossFire技術(shù)能夠輕松讓3D性能倍增，于是雙核心的顯卡成為NVIDIA和AMD雙方角逐3D性能王者寶座的殺手锏，近年來的旗艦級(jí)顯卡幾乎都是雙核心設(shè)計(jì)的。

但與CPU單芯片整合多核心的設(shè)計(jì)不同，顯卡一般是單卡多GPU設(shè)計(jì)，很少有單一GPU多核心設(shè)計(jì)，因?yàn)镚PU性能提升的瓶頸主要在于制造工藝，只要工藝跟得上，那么他們就有能力在GPU內(nèi)部植入盡可能多的流處理器。

★ 雙核心設(shè)計(jì)的Cypress核心：

不管GPU架構(gòu)改不改，流處理器數(shù)量總是要擴(kuò)充的，準(zhǔn)確的說是以級(jí)數(shù)規(guī)模增長(zhǎng)，這樣才能大幅提升理論性能。在流處理器數(shù)量急劇膨脹之后，如何管理好如此龐大的規(guī)模、并與其它模塊協(xié)調(diào)工作成為新的難題。

RV870的雙核心模塊設(shè)計(jì)

ATI RV870包括流處理器在內(nèi)的所有核心規(guī)格都比RV770翻了一倍，ATI選擇了“雙核心”設(shè)計(jì)，幾乎是并排放置兩顆RV770核心，另外在裝配引擎內(nèi)部設(shè)計(jì)有兩個(gè)Rasterizer（光柵器）和Hierarchial-Z（多級(jí)Z緩沖模塊），以滿足雙倍核心規(guī)格的胃口。

★ 四核心設(shè)計(jì)的GF100核心：

GF100可以看作是四核心設(shè)計(jì)

如果說Cypress是雙核心設(shè)計(jì)的話，那么GF100的流處理器部分就是“四核心”設(shè)計(jì)，因?yàn)镚F100擁有四個(gè)GPC（圖形處理器集群）模塊，每個(gè)GPC內(nèi)部包含一個(gè)獨(dú)立的Raster Engine（光柵化引擎），而在以往都是整顆GPU共享一個(gè)Raster Engine。

我們知道RV870的Rasterizer和Hierarchial-Z雙份的，而GF100則是四份的，雖然命名有所不同但功能是相同的。

GF100的每個(gè)GPC都可以看作是一個(gè)自給自足的GPU

GF100的四個(gè)GPC是完全相同的，每個(gè)GPC內(nèi)部囊括了所有主要的圖形處理單元。它代表了頂點(diǎn)、幾何、光柵、紋理以及像素處理資源的均衡集合。除了ROP功能以外，GPC可以被看作是一個(gè)自給自足的GPU，所以說GF100就是一顆四核心的GPU。

★ 為什么GPU也會(huì)設(shè)計(jì)成多核心？

GPU本身就是一顆并行處理器，每一個(gè)流處理器都是一個(gè)獨(dú)立的運(yùn)算單元，ATI和NVIDIA雙方第一次將GPU設(shè)計(jì)成為多核心方案，并不是為了提升其運(yùn)算能力和流處理器資源，而是為了更好的管理和控制龐大規(guī)模的流處理器，更充分的利用它們的處理能力，以便在不同的應(yīng)用環(huán)境下發(fā)揮出最強(qiáng)效能。

雖說流處理器數(shù)量決定著GPU的浮點(diǎn)運(yùn)算能力，但GPU除了單純的數(shù)學(xué)運(yùn)算外，還要處理諸多不同類型的任務(wù)，將龐大的流處理器劃分為多個(gè)獨(dú)立的區(qū)塊，每個(gè)區(qū)塊都設(shè)計(jì)專用的控制引擎和特殊功能模塊，這將會(huì)有效的平衡各個(gè)功能模塊的資源利用率。

GPU內(nèi)部擁有很多種類型的緩存，不同的緩存都有各自特殊的用途，往往無法互相兼容，這完全不同與CPU內(nèi)部L1、L2、L3這樣簡(jiǎn)單的層級(jí)關(guān)系。

★ Cypress的一級(jí)緩存：固定功能、固定容量的專用緩存

AMD的Cypress核心內(nèi)部的流處理器是按照SIMD（單指令多數(shù)據(jù)流）劃分的，每組SIMD陣列內(nèi)部包括了80個(gè)流處理器，這些流處理器擁有獨(dú)立的紋理單元和一級(jí)緩存（L1）以及本地?cái)?shù)據(jù)共享緩存（Local Data Share）。

為了滿足DX11中DirectCompute 11的要求，AMD增加了本地?cái)?shù)據(jù)共享緩存的大小(Local Data Share，LDS)，容量達(dá)到了32KB，是RV770的兩倍。LDS用于同一個(gè)線程組(Thread Group)中的線程共享數(shù)據(jù)。從上圖中我們可以看到，每一個(gè)SIMD連接一個(gè)LDS，不同的SIMD是不能共享LDS的，因此所有屬于同一個(gè)線程組的線程都會(huì)被線程調(diào)度器發(fā)送到同一個(gè)SIMD上執(zhí)行。

如果不同的SIMD上的線程要共享數(shù)據(jù)，需要用到全局?jǐn)?shù)據(jù)共享緩存(Global Data Share,GDS)。在Cypress中，GDS的容量也倍增了，達(dá)到64KB。到目前為止，我們對(duì)GDS的了解仍然有限，與LDS不同，并沒有指令能顯式的操作GDS。據(jù)Beyond3D的消息，在未來的OpenCL擴(kuò)展中可能會(huì)提供對(duì)GDS的訪問，目前GDS只對(duì)編譯器可見。

★ GF100的一級(jí)緩存：可動(dòng)態(tài)分配容量的多功能智能緩存

以往的GPU都是沒有一級(jí)緩存的，只有一級(jí)紋理緩存，因?yàn)檫@些緩存無法在通用計(jì)算中用于存儲(chǔ)計(jì)算數(shù)據(jù)，只能用于在紋理采樣時(shí)暫存紋理。而在GF100當(dāng)中，NVIDIA首次引入真正的一級(jí)高速緩存，而且還可被動(dòng)態(tài)的劃分為共享緩存。

在GF100 GPU中，每個(gè)SM除了擁有專用的紋理緩存外，還擁有64KB容量的片上緩存，這部分緩存可配置為16KB的一級(jí)緩存+48KB共享緩存，或者是48KB一級(jí)緩存+16KB共享緩存。這種劃分方式完全是動(dòng)態(tài)執(zhí)行的，一個(gè)時(shí)鐘周期之后可自動(dòng)根據(jù)任務(wù)需要即時(shí)切換而不需要程序主動(dòng)干預(yù)。

一級(jí)緩存與共享緩存是互補(bǔ)的，共享緩存能夠?yàn)槊鞔_界定存取數(shù)據(jù)的算法提升存取速度，而一級(jí)緩存則能夠?yàn)橐恍┎灰?guī)則的算法提升存儲(chǔ)器存取速度。在這些不規(guī)則算法中，事先并不知道數(shù)據(jù)地址。

對(duì)于圖形渲染來說，重復(fù)或者固定的數(shù)據(jù)比較多，因此一般是劃分48KB為共享緩存，當(dāng)然剩下的16KB一級(jí)緩存也不是完全沒用，它可以充當(dāng)寄存器溢出的緩沖區(qū)，讓寄存器能夠?qū)崿F(xiàn)不俗的性能提升。

而在并行計(jì)算之中，一級(jí)緩存與共享緩存同樣重要，它們可以讓同一個(gè)線程塊中的線程能夠互相協(xié)作，從而促進(jìn)了片上數(shù)據(jù)廣泛的重復(fù)利用并減少了片外的通信量。共享存儲(chǔ)器是使許多高性能CUDA應(yīng)用程序成為可能的重要促成因素。

★ 可動(dòng)態(tài)分配的共享式一級(jí)緩存大幅提升并行計(jì)算效率

再來算算一級(jí)緩存的總?cè)萘?，Cypress擁有8KBx20=160KB的一級(jí)緩存，和32KBx20=640KB的本地?cái)?shù)據(jù)共享緩存，還有額外的64KB全局?jǐn)?shù)據(jù)共享緩存。

而GF100擁有64KBx16=1MB容量的一級(jí)緩存+共享緩存，他們可以被動(dòng)態(tài)的劃分為256KB一級(jí)緩存+768KB共享緩存，或者768KB一級(jí)緩存+256KB共享緩存，另外還有12KBx16=192KB的紋理緩存，無論從哪個(gè)方面來比較，都要比Cypress強(qiáng)很多。

此次NVIDIA創(chuàng)新性的可動(dòng)態(tài)劃分一級(jí)緩存設(shè)計(jì)，是以往CPU上面都不曾有過的先進(jìn)技術(shù)，大幅提升了GPU并行計(jì)算的數(shù)據(jù)處理能力，使得GPU龐大的流處理器資源在高負(fù)荷密集型運(yùn)算時(shí)不至于出現(xiàn)瓶頸，從而發(fā)揮出恐怖的浮點(diǎn)運(yùn)算能力。

再來看看GPU二級(jí)緩存部分的設(shè)計(jì)，這一方面就與CPU非常相似了。

★ Cypress的二級(jí)緩存：綁定顯存控制器的分離式設(shè)計(jì)

以往的GPU，包括NVIDIA上代的GT200以及AMD最新的Cypress核心，二級(jí)緩存都是與顯存控制器綁定在一起的，其作用就是縮短GPU到顯存的響應(yīng)時(shí)間。由于顯存控制器一般都是64bit一組，為多組模塊化設(shè)計(jì)，因此二級(jí)緩存也被劃分為N個(gè)獨(dú)立的模塊，而不是統(tǒng)一的整體。

Cypress：L2綁定Memory Controller

Cypress擁有4個(gè)64bit顯存控制器，每個(gè)顯存控制器綁定128KB容量的二級(jí)緩存，總計(jì)512KB，這個(gè)容量要比NVIDIA上代的GT200大一倍。

★ GF100的二級(jí)緩存：統(tǒng)一的大容量高速緩存

而GF100擁有一個(gè)768KB容量統(tǒng)一的二級(jí)高速緩存，該緩存可以為所有載入、存儲(chǔ)以及紋理請(qǐng)求提供服務(wù)。二級(jí)緩存可在整個(gè)GPU中提供高效、高速的數(shù)據(jù)共享。物理效果、光線追蹤以及稀疏數(shù)據(jù)結(jié)構(gòu)等事先不知道數(shù)據(jù)地址的算法在硬件高速緩存上的運(yùn)行優(yōu)勢(shì)尤為明顯。后期處理過濾器需要多個(gè)SM才能讀取相同的數(shù)據(jù)，該過濾器與存儲(chǔ)器之間的距離更短，從而提升了帶寬效率。

統(tǒng)一的共享式緩存比單獨(dú)的緩存效率更高。在獨(dú)享式緩存設(shè)計(jì)中，即使同一個(gè)緩存被多個(gè)指令預(yù)訂，它也無法使用其它緩存中未貼圖的部分。高速緩存的利用率將遠(yuǎn)低于它的理論帶寬。GF100的統(tǒng)一共享式二級(jí)高速緩存可在不同請(qǐng)求之間動(dòng)態(tài)地平衡負(fù)載，從而充分地利用緩存。二級(jí)高速緩存取代了之前GPU中的二級(jí)紋理緩存、ROP緩存以及片上FIFO。

GF100的緩存架構(gòu)讓各流水線之間可以高效地通信，減少了顯存讀寫操作

統(tǒng)一的高速緩存還能夠確保存儲(chǔ)器按照程序的順序執(zhí)行存取指令。當(dāng)讀、寫路徑分離（例如一個(gè)只讀紋理路徑以及一個(gè)只寫ROP路徑）時(shí)，可能會(huì)出現(xiàn)先寫后讀的危險(xiǎn)。一個(gè)統(tǒng)一的讀/寫路徑能夠確保程序的正確運(yùn)行，同時(shí)也是讓NVIDIA GPU能夠支持通用C/C++程序的重要因素。

與只讀的GT200二級(jí)緩存相比，GF100的二級(jí)高速緩存既能讀又能寫，
而且是完全一致的。NVIDIA采用了一種優(yōu)先算法來清除二級(jí)緩存中的數(shù)據(jù)，這種算法包含了各種檢查，可幫助確保所需的數(shù)據(jù)能夠駐留在高速緩存當(dāng)中。

★ GF100共享式二級(jí)緩存堪比酷睿2：

可以看出，ATI的一二級(jí)緩存都是完全分散的，為了協(xié)調(diào)一二級(jí)緩存之間的數(shù)據(jù)交換，ATI特意設(shè)計(jì)了一個(gè)可全局共享的64KB數(shù)據(jù)緩存。

而GF100的一級(jí)緩存可以根據(jù)需求動(dòng)態(tài)的為共享緩存或者一級(jí)緩存分配較大的容量，從而加速數(shù)據(jù)處理。二級(jí)緩存更是大容量一體式設(shè)計(jì)，當(dāng)線程組在一級(jí)緩存中找不到數(shù)據(jù)時(shí)，可以直接從“海量”的二級(jí)緩存中索取，縮短了數(shù)據(jù)請(qǐng)求與定址時(shí)間，消除了瓶頸。

至于獨(dú)享式緩存與共享式緩存的效率與性能，無需多言，大家可參照CPU的發(fā)展即可略知一二。

★ CPU發(fā)展趨勢(shì)：不斷的整合功能模塊

通過前面詳細(xì)的介紹我們可以發(fā)現(xiàn)，CPU的發(fā)展趨勢(shì)就是不斷去整合更多的功能和模塊，從協(xié)處理器、到緩存、再到內(nèi)存控制器甚至整個(gè)北橋。

目前AMD和Intel的所有主流CPU都已經(jīng)整合了內(nèi)存控制器，Intel最新的Lynnfield（Core i7 8XX和i5 7XX）已經(jīng)整合了包括PCIE控制器在內(nèi)的整個(gè)北橋，而Clarkdale（Core i5 6XX和i3 5XX）更是將GPU也整合了進(jìn)去。

★ GPU發(fā)展趨勢(shì)：不斷的蠶食CPU功能

至于GPU，從某種意義上來說，它本身就是一顆協(xié)處理器，主要用于圖像、視頻、3D加速。之所以這么多年來沒有被CPU所整合，是因?yàn)镚PU實(shí)在太復(fù)雜了，以現(xiàn)有的制造工藝限制，CPU不可能去整合一顆比自身規(guī)模還要大很多的GPU，它頂多只能整合一顆主流中低端的GPU，而這樣的產(chǎn)品只能定位入門級(jí)，無法滿足游戲玩家和高性能計(jì)算的需要。

GPU從誕生至今一步步走來，就是在不斷蠶食著原本屬于CPU的功能，或者說是幫助CPU減負(fù)、去處理哪些CPU并不擅長(zhǎng)的任務(wù)。比如最開始的T&L(坐標(biāo)轉(zhuǎn)換與光源)、VCD\\DVD\\HD\\BD視頻解碼、物理加速、幾何著色。而今后和未來，GPU將奪走一項(xiàng)CPU最重要的功能——并行計(jì)算、高精度浮點(diǎn)運(yùn)算。

★ GPU前途似錦：浮點(diǎn)運(yùn)算的未來

我們知道，CPU第一個(gè)整合的就是專門用來加速浮點(diǎn)運(yùn)算的協(xié)處理器，此后歷代SSE指令集也都是為了加強(qiáng)CPU的SIMD(單指令多數(shù)據(jù)流)浮點(diǎn)運(yùn)算性能。而GPU打從一開始就被設(shè)計(jì)成為了SIMD架構(gòu)(至今Cypress也還是這種架構(gòu))，擁有恐怖浮點(diǎn)運(yùn)算能力的處理器。當(dāng)今GPU的浮點(diǎn)運(yùn)算能力更是達(dá)到多核CPU的幾十倍甚至上百倍！

CPU和GPU的浮點(diǎn)運(yùn)算能力

CPU永遠(yuǎn)都趕不上GPU的發(fā)展速度，因此最適合進(jìn)行浮點(diǎn)運(yùn)算的顯然是GPU，CPU繼續(xù)擴(kuò)充核心數(shù)目已經(jīng)變得毫無意義，因此整個(gè)業(yè)界都在想方設(shè)法的發(fā)掘GPU的潛能，將所有的并行計(jì)算任務(wù)都轉(zhuǎn)移到GPU上面來。即便是Intel也看到了GPU廣闊的前景，因此著手研發(fā)GPU。

此前由于API和軟件的限制，GPU在并行計(jì)算方面的應(yīng)用舉步維艱、發(fā)展緩慢，NVIDIA孤身推廣CUDA架構(gòu)雖然小有成就但孤掌難鳴。好在OpenCL和DirectCompute兩大API的推出讓GPU并行計(jì)算的前途豁然開朗，此時(shí)ATI和NVIDIA又重新站在了同一起跑線上，那么很顯然誰的架構(gòu)更適合并行計(jì)算，那么誰就能獲得更強(qiáng)的性能和更大范圍的應(yīng)用，通過本文的分析可以看出，ATI的架構(gòu)依然是專注于傳統(tǒng)的圖形渲染，并不適合并行計(jì)算；而NVIDIA的架構(gòu)則完全針對(duì)通用計(jì)算API和指令集優(yōu)化設(shè)計(jì)，確保能發(fā)揮出接近理論值最大效能，提供最強(qiáng)的浮點(diǎn)運(yùn)算性能！

★ CPU面臨拐點(diǎn)：強(qiáng)化整數(shù)性能，浮點(diǎn)運(yùn)算交給GPU

AMD同時(shí)擁有CPU和GPU，而且AMD在技術(shù)方面往往能夠引領(lǐng)業(yè)界，因此其未來發(fā)展規(guī)劃非常值得大家思考。根據(jù)AMD最新的產(chǎn)品路線圖來看，其下一代的高端CPU核心Bulldozer（推土機(jī)），它最大的亮點(diǎn)就是每一顆核心擁有雙倍的整數(shù)運(yùn)算單元，整數(shù)和浮點(diǎn)為非對(duì)稱設(shè)計(jì)：

AMD下一代“推土機(jī)”架構(gòu)，大幅強(qiáng)化整數(shù)運(yùn)算單元

在一個(gè)推土模塊里面有兩個(gè)獨(dú)立的整數(shù)核心，每一個(gè)都擁有自己的指令、數(shù)據(jù)緩存，也就是scheduling/reordering邏輯單元。而且這兩個(gè)整數(shù)單元的中的任何一個(gè)的吞吐能力都要強(qiáng)于Phenom II上現(xiàn)有的整數(shù)處理單元。Intel的Core構(gòu)架無論整數(shù)或者浮點(diǎn)，都采用了統(tǒng)一的scheduler（調(diào)度）派發(fā)指令。而AMD的構(gòu)架使用獨(dú)立的整數(shù)和浮點(diǎn)scheduler。

據(jù)AMD透露，目前存在于服務(wù)器上的80%的操作都是純粹的整數(shù)操作，因此AMD新一代CPU大幅加強(qiáng)了整數(shù)運(yùn)算單元而無視浮點(diǎn)運(yùn)算單元。而且，隨著CPU和GPU異構(gòu)計(jì)算應(yīng)用越來越多，GPU將會(huì)越來越多的負(fù)擔(dān)起浮點(diǎn)運(yùn)算的操作，預(yù)計(jì)未來3-5年的時(shí)間內(nèi)，所有浮點(diǎn)運(yùn)算都將會(huì)交給最擅長(zhǎng)做浮點(diǎn)運(yùn)算的GPU，這也就是推土機(jī)加強(qiáng)整數(shù)運(yùn)算的真正目的。

當(dāng)然，AMD和Intel都會(huì)推出CPU整合GPU的產(chǎn)品，不管是膠水還是原生的解決方案，其目的并不是為了消滅顯卡和GPU，而是通過內(nèi)置的GPU為CPU提供強(qiáng)大的浮點(diǎn)運(yùn)算能力。但由于制造工藝所限，被CPU所整合的GPU不是集成卡就是中低端，只能滿足基本需求。所以想要更強(qiáng)大的游戲性能和并行計(jì)算性能的話，專為浮點(diǎn)運(yùn)算而設(shè)計(jì)的新一代架構(gòu)的GPU產(chǎn)品，才是最明智的選擇。

所以說，CPU和GPU，誰也不可能取代誰，雙方是互補(bǔ)的關(guān)系，只有CPU和GPU協(xié)同運(yùn)算，各自去處理最擅長(zhǎng)的任務(wù)，才能發(fā)揮出計(jì)算機(jī)最強(qiáng)的效能。CPU會(huì)整合GPU的，但僅限中低端產(chǎn)品；GPU會(huì)取代CPU進(jìn)行浮點(diǎn)運(yùn)算的，但它仍然需要CPU來運(yùn)行操作系統(tǒng)并控制整個(gè)計(jì)算機(jī)。只有當(dāng)制造工藝發(fā)達(dá)到一定程度時(shí)才有可能將CPU和GPU完美融合在一起，到時(shí)候是CPU整合GPU還是GPU整合CPU都很難說，但誰被誰整合已經(jīng)不重要了?！?

1人已贊

国产成人福利在线视频播放下载,成人无码www免费视频在线看,放荡的美妇在线播放,大地资源网最新更新,国产成人精品日本亚洲网站

從CPU架構(gòu)和技術(shù)的演變看GPU未來發(fā)展

關(guān)注我們