打倒X86!NVIDIA的CPU+GPU戰(zhàn)略全解析
受微軟宣布下代操作系統(tǒng)Windows 8將正式支持ARM架構(gòu)的影響,NVIDIA原本的ARM核心CPU業(yè)務(wù)范圍也將擴(kuò)大。在3月召開的投資者會議Financial Analyst Day 2011上,NVIDIA總裁兼CEO黃仁勛宣布,Denver的核心將使用未來的Tegra處理器。
NVIDIA的目標(biāo)是成為"Computing Company"
要實(shí)現(xiàn)這一目標(biāo)CPU業(yè)務(wù)也是重要的收益來源
雖然黃仁勛的說法擺在那里,不過看起來Project Denver和Tegra的關(guān)系不是那么簡單:NVIDIA移動業(yè)務(wù)總經(jīng)理Micheal Rayfield稱:“Project Denver和Tegra毫無關(guān)系”。他說:“用于移動業(yè)務(wù)的Tegra最注重目標(biāo)是省電性能,將不會冒進(jìn),沿著ARM提供的Roadmap進(jìn)行SoC開發(fā)?!薄癒al-El將是Cortex-A9架構(gòu)四核處理器,Wayne也自然會沿用下一架構(gòu)?!北砻髁薟ayne將使用Cortex-A15架構(gòu)。
2011年5月曝光的Project Denver核心示意圖
同時(shí)Desai也從另外一方面驗(yàn)證了上述表態(tài):“Project Denver目標(biāo)是成為面向HPC(高性能計(jì)算)的強(qiáng)力CPU核心,不會像Tegra一樣考慮省電?!盤roject Denver究竟目的在哪?
那么,Project Denver開發(fā)的CPU核心究竟是什么樣的東西呢?可從2010年11月在美國路易斯安那州新奧爾良市召開的HPC相關(guān)技術(shù)大會"SC10"上窺見一斑,同時(shí)也可從NVIDIA在GTC Workshop Japan 2011上公開的Roadmap中"Echelon"高性能HPC向平臺推測出部分內(nèi)容。
Echelon計(jì)劃的來頭頗大,主導(dǎo)機(jī)關(guān)是美國國防部下屬的DARPA(國防尖端技術(shù)研究開發(fā)計(jì)劃局),目標(biāo)是在2018年實(shí)現(xiàn)ExaScale級別計(jì)算能力的超級計(jì)算機(jī)(UHPC),Echelon的開發(fā)受到這一項(xiàng)目的經(jīng)費(fèi)資助。DARPA資助經(jīng)費(fèi)的規(guī)定為,在2014年前完成Phase1階段的開發(fā),即設(shè)計(jì)完成硬件部分,同時(shí)要報(bào)送DARPA審查。
Echelon模塊圖解
NVIDIA首席科學(xué)家Bill Dally在SC10大會上的演講內(nèi)容中透露,Echelon為128個(gè)SM模塊和Project Denver的基礎(chǔ)——名為Latency Processor的8個(gè)CPU核心所組成,其中每個(gè)SM模塊含有8個(gè)CUDA Core和獨(dú)立的L0 Cache。據(jù)此計(jì)算,Echelon芯片整體含有8*128=1024個(gè)CUDA Core。
Echelon由128個(gè)SM模塊和8個(gè)Latency Processor組成,后者就是Denver的核心
各個(gè)SM模塊獨(dú)立命名為"NoC"(Network on Chip)通過內(nèi)部界面,經(jīng)由L2 Cache和內(nèi)存控制器與其他SM相互連接。L2 Cache和CUDA Core數(shù)量一樣分1024塊,單個(gè)Echelon芯片中,NoC通過MC與一同封裝的DRAM Cube連接帶寬可達(dá)1.4TB/s。
內(nèi)存和每個(gè)Echelon的MCM Node在同一封裝內(nèi)相連,帶寬可達(dá)1.4TB/s
Echelon芯片的峰值計(jì)算性能(以雙精度浮點(diǎn)運(yùn)算記)可達(dá)20T FLOPS。NVIDIA設(shè)想的每個(gè)Echelon機(jī)柜搭載32個(gè)模塊,每個(gè)模塊封裝4個(gè)Echelon芯片,這樣單個(gè)機(jī)柜的運(yùn)算能力可達(dá)2.56P FLOPS。Echelon的Phase1(第一階段)設(shè)計(jì)就是如此,NVIDIA將在此基礎(chǔ)上第二階段主要考慮繼續(xù)提高運(yùn)算性能和降低芯片所消耗的電力。
每個(gè)Echelon機(jī)柜由128個(gè)Node(即單Echelon芯片)組合而成
實(shí)現(xiàn)2.56P FLOPS的計(jì)算能力,功率38千瓦
400個(gè)機(jī)柜即可實(shí)現(xiàn)Exa級別的計(jì)算,功率約150萬瓦
為了配合UHPC一期開發(fā)階段制造Echelon工程樣品的需要,2013年前需要完成Latency Processor即Project Denver的CPU核心開發(fā)工作。
關(guān)注我們
