"膠水"不算"融合"!AMD談CPU+GPU架構(gòu)
泡泡網(wǎng)CPU頻道2月3日 早在2006年,AMD重金收購ATI之時,AMD的目光就沒有局限于ATI現(xiàn)成的顯卡和芯片組產(chǎn)品線,而是著眼于更加長遠(yuǎn)的CPU+GPU整合方案。轉(zhuǎn)眼間四年時間過去了,ATI旗下的顯卡和芯片組如今做得是有聲有色,而CPU+GPU的融合方案也初具雛形。
單從技術(shù)和架構(gòu)方面來講,AMD一直都扮演著領(lǐng)導(dǎo)者的角色,64位處理器、集成內(nèi)存控制器、HT總線、涼又靜(CnQ)節(jié)能、硬件防病毒、原生雙核四核等等,無一不讓競爭對手苦苦追隨。從AMD近年來的口號“The future is fusion”來看,AMD未來的重點就是CPU和GPU的融合計劃,AMD再次站在了業(yè)界的前沿。
但是,Intel在2010年伊始,以迅雷不及掩耳之勢發(fā)布業(yè)內(nèi)首款CPU+GPU整合架構(gòu)的全新處理器——Core i5/i3及新奔騰雙核,而AMD的Fusion至今還沒有實際產(chǎn)品出現(xiàn)。以不斷創(chuàng)新而著稱的AMD這次居然落后,真的是這樣嗎?
AMD高級副總裁兼技術(shù)事業(yè)部總經(jīng)理Chekib Akrout先生
AMD CTO接受國內(nèi)IT媒體專訪
近日,AMD高級副總裁兼技術(shù)事業(yè)部總經(jīng)理Chekib Akrout先生訪華,筆者有幸對這位以技術(shù)見長的副總裁做了簡短的專訪,詳細(xì)咨詢了一些關(guān)于AMD Fusion APU的資料,在此分享給廣大讀者朋友們。
近年來CPU的技術(shù)、架構(gòu)和性能都發(fā)生了翻天覆地的變化,但一切改變都并不像人們預(yù)想中的那么順利,Intel和AMD走了不少的彎路才讓處理器性能產(chǎn)生飛躍式提升,Chekib Akrout先生首先回顧近年來CPU發(fā)展所經(jīng)歷的幾個階段:
● 單核心時代:主頻不能無限提升
第一個時代我們稱之為單核時代,一切重點都是放在主頻頻率,希望它越來越快,性能越來越強。但隨著功耗和復(fù)雜性要求越來越高,瓶頸效應(yīng)越來越嚴(yán)重,迫使雙方改變策略。Intel和AMD的主頻大戰(zhàn)有兩個標(biāo)志性事件:
2000年,Intel和AMD爭分奪秒的對1GHz主頻發(fā)起了沖擊,Intel率先發(fā)布Pentium III 1.13GHz,但由于緩存無法工作在高頻下,產(chǎn)生間歇性鎖死現(xiàn)象,Intel不得已宣布召回這批處理器。在這次1GHz主頻大戰(zhàn)中穩(wěn)妥的AMD憑借Athlon 1GHz笑到了最后。
“銅礦”奔三1.13GHz BUG事件
隨后AMD改變策略,以優(yōu)化處理器執(zhí)行效能為重點,推出了Athlon XP及后來的Athlon 64處理器。而執(zhí)著的Intel似乎無法接受1GHz主頻大戰(zhàn)中的慘敗的事實,孤注一擲地推出了NetBurst架構(gòu),開始瘋狂的提升CPU主頻,相繼突破了2GHz、3GHz、并向4GHz邁進……
Intel CEO Barrett因未能使Netburst(Pentium 4)突破4G而下跪
此后,雖然Pentium 4的主頻節(jié)節(jié)攀升,但媒體和用戶都發(fā)現(xiàn)Intel的高頻處理器并不比頻率低很多的AMD處理器強,于是高頻低能成為了Pentium 4的代名詞,而恐怖的發(fā)熱和功耗成為了整個業(yè)界的負(fù)擔(dān)。最終Intel止步于3.8GHz,這個頻率時至今日都沒有被打破,Intel CEO終于以戲劇性的方式接受了主頻大戰(zhàn)的失敗。
● 多核心時代:核心數(shù)量不能無限增多
為了進一步解決增加性能的問題,處理器開始進入到一個多核時代,在多核時代,每增加一顆核心就能帶來非??捎^的性能提升,如今雙核已經(jīng)普及,三核、四核也逐漸發(fā)揮出了應(yīng)有的實力。
多核心時代AMD一直致力于解決多核心協(xié)同工作的效能問題,因此率先發(fā)布原生雙核、原生四核以及少有的三核處理器。而Intel的首款雙核及四核產(chǎn)品都是通過“膠水”封裝而來,性能提升有限,之后才推出真正的原生產(chǎn)品,給用戶帶來了驚喜。

四核處理器多數(shù)情況下都只有1-2顆核心工作
處理器核心越多性能自然越強,但效率實際上卻在不斷降低,而且復(fù)雜性越來越高,受到了功耗、發(fā)熱、成本等多方面因素的制約,這個瓶頸和當(dāng)初盲目追求高主頻其實很類似。
● 異構(gòu)計算時代:CPU+GPU融合是大勢所趨
所以處理器又進入到第三時代,我們稱之為異構(gòu)系統(tǒng)時代,在這個時代處理器增加了很多不同的計算單元,希望能夠提高性能,希望獲得很多數(shù)據(jù)并行,但它需要很多的計算單位,編程成為最大的制約因素。在這個新時代中,目前還處于曲線開端,因此(有很大的發(fā)展空間)今后將會帶來更多提高性能的機會。
以上是從計算角度來看的,從工作量來看,在視頻、圖形計算工作的負(fù)載方面,視頻用得比較多。舉個例子,現(xiàn)在視頻已經(jīng)占了整個互聯(lián)網(wǎng)用戶三分之一的流量。AMD如何通過自己的融聚技術(shù)滿足目前大家所需要的現(xiàn)代工作負(fù)載要求呢?首先有X86技術(shù),還有GPU技術(shù)。我們知道X86技術(shù)現(xiàn)在已經(jīng)非常成熟,用于CPU的軟件產(chǎn)品也非常成熟。所有的編程人員都知道如何根據(jù)它進行編程,同時有非常好的程序序列。從GPU來講,也非常出色,負(fù)載優(yōu)化,兩者結(jié)合才使我們迎來了融聚時代。
現(xiàn)在我們有了CPU和GPU,如何結(jié)合起來打造融聚技術(shù)呢?GPU是針對固定功能,主要是圖形處理。但隨著技術(shù)不斷發(fā)展,也越來越有可編程性。CPU本身就具有很高的可編程性,隨著演變發(fā)展,也可以承擔(dān)一些GPU的工作。當(dāng)我們的GPU編程性越來越高,當(dāng)CPU密度越來越大,我們就有可能把兩者結(jié)合起來,這就是去年年底我們?yōu)槭裁葱剂说谝豢钊诰奂夹g(shù),我們稱之為LIano。有了這種集成能力,我認(rèn)為CPU、GPU不斷密切配合,就可以獲得更大的計算密度。有了非常好的計算密度,我們就可以搞出非常好的編程模型,讓開發(fā)人員開發(fā)出新的應(yīng)用,充分利用我們的架構(gòu)。
Intel剛剛發(fā)布的CPU+GPU整合式處理器,表面上看AMD所倡導(dǎo)的概念被Intel搶先了。但詳細(xì)分析其架構(gòu)之后大家會發(fā)現(xiàn)Intel的做法只是將CPU和GPU兩顆不同的芯片封裝在了一起(也就是通常所說的“膠水”技術(shù)),而不是真正把CPU和GPU無縫“融合”在一起,實際從技術(shù)和架構(gòu)方面來講這是一種倒退。
Clarkdale核心處理器“膠水”示意圖
32nm工藝Westmere架構(gòu)的Clarkdale處理器與Intel此前45nm工藝Nehalem架構(gòu)的Bloomfield及Lynnfield處理器完全不同。Bloomfield(Core i7 9XX)整合了三通道內(nèi)存控制器,Lynnfield(Core i7 8XX和i5 7XX)整合了雙通道內(nèi)存控制器以及PCI-E控制器,而Clarkdale(Core i5 6XX和i3 5XX)其實什么都沒有整合:

Bloomfield/Lynnfield/Clarkdale核心架構(gòu)圖
上面的三款核心架構(gòu)示意圖揭露了所有答案,Lynnfield雖然少了一條內(nèi)存通道,但由于DDR3帶寬過剩因此性能損失很小,而PCI-E控制器的加入讓整合度更高、架構(gòu)更為先進。
反觀Clarkdale核心,它的內(nèi)存控制器、集成顯卡、PCI-E控制器都在北橋里面,這與Intel上代Core 2平臺沒有什么兩樣,將CPU和北橋封裝在一起并不能提升性能,僅僅是簡化了主板設(shè)計而已。由于Clarkdale沒有整合內(nèi)存控制器的原因,其內(nèi)存性能非常低下,性能方面并沒有帶來驚喜,只是拜先進的32nm工藝所賜,功耗和發(fā)熱表現(xiàn)比較出色,僅此而已。
代號Pineview的新Atom處理器為單芯片CPU+GPU設(shè)計
Clarkdale將CPU和北橋封裝在了一起,而Intel新一代Atom N450是一顆單芯片整合了內(nèi)存控制器和集成顯卡的處理器,看上去似乎更像一顆CPU+GPU整合式處理器,實際上它的架構(gòu)更為落后:膠水版Clarkdale的CPU和北橋之間好歹使用了新一代的QPI總線互聯(lián),而新Atom的CPU和北橋雖然在同一顆芯片之內(nèi),但他們之間依然使用老邁的FSB總線:

新Atom本質(zhì)上也是將CPU和北橋簡單的放在一起,只是由于晶體管數(shù)較少,更容易整合,沒必要使用膠水。而在內(nèi)部架構(gòu)方面,落后的FSB總線依然得到了保留,CPU和北橋(包括內(nèi)存控制器和顯卡)之間的瓶頸依然存在,性能根本沒有任何提升。
而AMD所要做的融聚技術(shù)并不是簡單地將CPU和GPU(及傳統(tǒng)的北橋)攢在一塊,更重要的是通過融聚提升性能,獲得更有價值的應(yīng)用。
Intel的Atom的確是一款很有創(chuàng)意的處理器,被廣泛的應(yīng)用在上網(wǎng)本和低端電腦之上,但這款處理器由于性能太弱,遠(yuǎn)遠(yuǎn)滿足不了用戶當(dāng)前的要求以及未來日益增長的互聯(lián)網(wǎng)圖形化需求。Intel新一代Atom也只是新瓶裝舊酒,沒有實質(zhì)性的改進。
Atom D510相比上代N330性能沒有任何提升(新舊ATOM游戲性能PK)
下面為大家介紹一款去年年底AMD宣布推出的最新技術(shù),面向低功耗、低成本、低端市場的Bobcat核心,這顆核心非常小巧、高效,而且功耗非常低,能夠在低于一瓦的情況下工作。Bobcat以不到目前處理器核心一半的面積實現(xiàn)了當(dāng)前主流處理器90%的性能。這款核心將在2011年初隨著AMD代號為Brazos的筆記本APU問世。它的設(shè)計非常靈活,高度可合成,可重新組合CPU使用。
“Bobcat” X86核心:小巧,高效,強大
·非常低的設(shè)計功耗——注重每瓦性能
·用不到一半的硅面積實現(xiàn)當(dāng)今主流性能的90%
·綜合/易用
·支持完整的ISA——SSE1~3和虛擬化
·2011年/筆記本APU/“Brazos”
核心架構(gòu)類似K7/K8/K10的整數(shù)/浮點管線分離設(shè)計(而不是Atom那種順序執(zhí)行),2ALU/2AGU/2FPU,ALU/AGU/FPU都擁有獨占的端口,ALU為對稱設(shè)計,AGU為非對稱設(shè)計(1Load/1Store),F(xiàn)PU也是非對稱設(shè)計(1FADD/1FMUL)。
Bobcat將會使用最新的32nm SOI工藝制造,以接近于主流處理器的性能,實現(xiàn)超低的功耗將是其最大的亮點,它將大大改善便攜式筆記本的性能和續(xù)航時間,成為入門級首選處理器核心。
既然Clarkdale(Core i5/i3)和Pineview(新Atom)都不是真正的CPU+GPU整合式處理器,那么到底什么樣的處理器才是真正將CPU和GPU合而為一呢?我們來看看AMD代號為LIano的APU:
Llano核心照片
目前AMD關(guān)于LIano的APU資料都處于保密階段,所有規(guī)格和技術(shù)參數(shù)都將在2月8日(北京時間2月9日)舉行的ISSCC 2010大會上公布,產(chǎn)品將會在下半年量產(chǎn),正式發(fā)布將會在2011年初,以下只是一些泄露出來未經(jīng)官方證實的初步資料:
LIano包括了一顆四核心處理器,沒有L3(可能為了節(jié)約晶體管)但擁有2M L2(每顆核心512KB)。GPU部分擁有6個SIMD引擎,如果每個引擎擁有80個流處理器(HD5000就是這個規(guī)格),那么總共就是480個流處理器。
CPU和GPU之間不通過傳統(tǒng)的PCI-E總線,而是直接使用高速的HT總線直連,并且共享內(nèi)存控制器,這樣的設(shè)計可以大大降低CPU和GPU數(shù)據(jù)通訊延遲,提升異構(gòu)計算的效率。我們猜測這樣的設(shè)計目的就是為了充分利用內(nèi)存帶寬并提升性能,架構(gòu)遠(yuǎn)優(yōu)于Intel,實際上對于GPU來說肯定不如配備專用的顯存,但好處就是成本大大下降。
AMD Propus處理器的晶體管數(shù)量為3億,再加上480個流處理器和其它的專用邏輯芯片6億左右的晶體管,LIano處理器將會擁有10億個晶體管,和HD5770的GPU差不多,但將會使用32nm SOI工藝制造,因此功耗發(fā)熱將會更低,我們估計TDP可望控制在100W以內(nèi)。
當(dāng)然,AMD APU不止LIano一款,其規(guī)格將會非常靈活多變,用戶可根據(jù)需要選擇偏重于CPU或者偏重于GPU的型號。如此一來將會衍生出種類龐大的APU家族,當(dāng)問及這樣的產(chǎn)品定位會不會造成用戶無從選擇時,Chekib Akrout先生指出:未來的APU與現(xiàn)在多核CPU的定位劃分沒有本質(zhì)區(qū)別,現(xiàn)在AMD的CPU產(chǎn)品型號也非常多,有雙核、三核、四核甚至六核,每一個系列還根據(jù)二級緩存或三級緩存大小進一步細(xì)分,而APU將會以CPU和GPU核心數(shù)劃分產(chǎn)品線。
Bobcat定位入門級,LIano定位主流中低端,而AMD另一款定位高端的核心Bulldozer(推土機)也是備受矚目,它最大的亮點就是每一顆核心擁有雙倍的整數(shù)運算單元,整數(shù)和浮點為非對稱設(shè)計:
AMD神奇的“推土機”架構(gòu)
在一個推土模塊里面有兩個獨立的整數(shù)核心,每一個都擁有自己的指令、數(shù)據(jù)緩存,也就是scheduling/reordering邏輯單元。AMD也提到,這兩個整數(shù)單元的中的任何一個的吞吐能力都要強于Phenom II上現(xiàn)有的整數(shù)處理單元。Intel的Core構(gòu)架無論整數(shù)或者浮點,都采用了統(tǒng)一的scheduler(調(diào)度)派發(fā)指令。而AMD的構(gòu)架使用獨立的整數(shù)和浮點scheduler。
現(xiàn)在推土機將整數(shù)調(diào)度單元增長了一倍,浮點運算的部分則維持原樣。在FP scheduler之后是兩個128位的FMAC。AMD認(rèn)為每一個線程被分發(fā)到核心將會使用到一個128位的FMAC,如果這個線程只是純粹的整數(shù)操作,另外一個FMAC就可以使用全部的FP執(zhí)行資源。在AMD看來,目前存在于服務(wù)器上的80%的操作都是純粹的整數(shù)操作,這也就是AMD只加強整數(shù)運算單元而無視浮點運算單元的重要原因。
另一方面,隨著CPU和GPU異構(gòu)計算應(yīng)用越來越多,GPU將會越來越多的負(fù)擔(dān)起浮點運算的操作,預(yù)計未來3-5年的時間內(nèi),所有浮點運算都將會交給最擅長做浮點運算的GPU,這也就是推土機加強整數(shù)運算的真正目的,雖然推土機架構(gòu)并未整合GPU(因為它定位高端,不論企業(yè)還是玩家都需要最強的CPU和GPU),但一切都在為Fusion而準(zhǔn)備著,可以說AMD繼64bit、整合內(nèi)存控制器、HT總線、三個層級緩存之后,又一次引領(lǐng)業(yè)界,走在了巨頭Intel前面!■<
關(guān)注我們


