国产成人福利在线视频播放下载,成人无码www免费视频在线看,放荡的美妇在线播放,大地资源网最新更新,国产成人精品日本亚洲网站

泡泡網(wǎng)顯卡頻道 PCPOP首頁      /      顯卡     /      新聞    /    正文

GPU爭奪霸權(quán)!NVIDIA談超級計算機發(fā)展

    [泡泡網(wǎng)顯卡頻道 12月23日] 超級計算機是為研究復(fù)雜科技課題而設(shè)計的,它是由成千上萬顆多核CPU組成,應(yīng)用方向主要是模擬物理系統(tǒng),諸如地球大氣層,模擬氫彈核裂變反應(yīng)等等。這些系統(tǒng)本身就可以劃分為多個區(qū)塊分別計算,直接對應(yīng)給多個處理器或處理器多核心,避免數(shù)據(jù)的頻繁遷移來提高效率。

    近年來,超級計算機在情報處理上的應(yīng)用越來越頻繁。諸如分析自然災(zāi)害中的交通網(wǎng)絡(luò)狀況,從電話錄音中搜索恐怖分子暗語等等。這類情報應(yīng)用往往需要大量檢索數(shù)據(jù)庫信息,較多核心處理器在這種應(yīng)用中就不那么在行了。

    Sandia實驗室主要為美國國家安全部門服務(wù),因此尤其關(guān)注情報應(yīng)用。根據(jù)他們的模擬,8核心之后再往處理器內(nèi)塞入更多的核心,并不能帶來性能提升,在情報處理應(yīng)用中反而會出現(xiàn)性能下滑?!?6核的表現(xiàn)就和雙核差不多”。他們近一年來和業(yè)內(nèi)處理器廠商、超級計算機廠商以及超級計算機用戶進行了大量討論。得出的結(jié)論是,如果不對計算機架構(gòu)作出修改,未來當(dāng)出現(xiàn)16核32核處理器時,為超級計算機編程的程序員或許只好屏蔽部分核心,或是將這些處理器用于非重點運算應(yīng)用。

    問題的關(guān)鍵在于存儲帶寬上。盡管處理器內(nèi)的核心在不斷增加,但CPU同外界的通道帶寬卻沒有同步增長。對于較多核心處理器來說,用數(shù)據(jù)把它們喂飽成了一個難題。根據(jù)模擬測試,在處理器芯片上堆疊存儲芯片,以大幅提高存儲帶寬,或許是一種解決方案,至少不會使多核心處理器性能下滑。但是,在現(xiàn)有的制造工藝下,想要在處理器上堆疊更大容量緩存是不現(xiàn)實的。

    而GPU運算技術(shù)的出現(xiàn),給超級計算機的發(fā)展帶來一絲曙光。一顆GPU的浮點運算能力相當(dāng)于CPU的幾十倍甚至幾百倍,而且也不用擔(dān)心存儲帶寬不夠用,GPU的顯存帶寬可達CPU的十倍以上,而且延遲更低。如果用同等規(guī)模的GPU組成超級計算機的話,那么超級計算機的運算能力將提升百倍之多;實現(xiàn)同等運算能力,GPU超級計算機的結(jié)構(gòu)、規(guī)模、成本、功率將會大大減少——這就意味著個人超級計算機不再是夢想!

    2008年11月18日,NVIDIA正式發(fā)布基于GPU流處理器運算架構(gòu)的個人超級計算機“Tesla Personal Supercomputer”,以標(biāo)準(zhǔn)桌面工作站的體積提供相當(dāng)于一個超級計算機集群的處理能力,同時價格只有百分之一,功耗也不過十分之一!

    “Tesla Personal Supercomputer”問世還不到一月就傳來捷報,在前不久公布的全球超級計算機排行榜中,位列第29位的東京工業(yè)大學(xué)“TSUBAME”更是一枝獨秀,因為它配備了NVIDIA Tesla計算處理器,這也是這GPU超級計算機第一次上榜。

    這套今年剛剛完成的超級計算機基于Sun Fire x4600/x6250集群,一共配備了170臺NVIDIA Tesla S1070 1U計算系統(tǒng),每個系統(tǒng)內(nèi)有四塊源于GT200核心的Tesla C1060計算處理卡,總共只用了680顆GPU,總體峰值浮點性能就達到了161.82TFlops,最大性能77.48TFlops。

    東京工業(yè)大學(xué)全球科學(xué)信息與計算中心主任Satoshi Matsuoka稱,為這臺超級計算機添加升級Tesla S1070只花了一個星期,而且期間系統(tǒng)沒有離線。除了東京工業(yè)大學(xué),美國的伊利諾斯州國家超級計算應(yīng)用中心、萊斯大學(xué)、馬里蘭大學(xué)、北卡羅來納大學(xué)和德國的海德爾堡大學(xué)、馬克斯·普朗克研究院也都有各自的GPU超級計算機方案。

    Tesla Personal Supercomputer超強的理論性能是有目共睹的,能夠?qū)esla如此迅速的應(yīng)用在超級計算機市場,這與NVIDIA近年來在GPU并行計算方面的努力是分不開的。為了進一步加深了解GPU在未來計算方面的發(fā)展前景,筆者對NVIDIA Tesla產(chǎn)品事業(yè)部總經(jīng)理Andy Keane進行了專訪,為大家講解GPU在超級計算市場成功的秘密。

目前世界計算能力最強的前十超級計算機仍基于CPU集群的方式搭建,您預(yù)測何時基于NVIDIA-GPU的Tesla產(chǎn)品能躋身前十?


2008年超級計算機排行榜TOP10

Andy Keane:在前不久的世界超級計算機500強排名中,日本一所大學(xué)的超級計算機排名全球第29,這個超級計算機叫TSUBAME,它就是采用了NVIDIA的Tesla做運算,現(xiàn)在它還在不斷的升級與改進中。我不能代表東京工業(yè)大學(xué)超級計算領(lǐng)軍人物的意見,但Matsuoka博士曾公開表示,他打算使用GPU在2010年打造出一臺榮登世界最快榜單的計算機。

    我在跟很多使用超級計算機的人溝通,他們已經(jīng)表現(xiàn)出極大的興趣使用Tesla進行超級計算,現(xiàn)在日本這家叫TSUBAME的超級計算機能夠躋身前30名已經(jīng)是很好的證明,除此之外美國國家超級運算應(yīng)用中心(NCSA)以及法國原子能委員會(CEA)是兩家著名的超級計算中心,他們將使用GPU躋身下一屆世界五百強榜單。我們會跟更多的超級計算機中心合作,在2010-2011年會有更多使用GPU的超級計算機殺進500強,并實現(xiàn)躋身前十的目標(biāo)。而且使用Tesla會更加節(jié)省功耗、電還有很多的空間和成本,這是令人非常振奮的。

● 按照目前的數(shù)據(jù)統(tǒng)計,如果要實現(xiàn)目前第一的超級計算機能力需要多少擁有240流處理器的Tesla產(chǎn)品?

Andy Keane:就拿全球第二名“美洲豹”超級計算機為例,它是美國一個叫Oakrige實驗室的超級計算機,由18萬顆CPU核心組成,也就是用了4.5萬顆4核CPU。如果改用Tesla的話,只要1.5萬個GPU就可以實現(xiàn)這個東西,到明年我們有更好的下一代的產(chǎn)品出來,那么核心數(shù)量就可以馬上減掉一個零,僅僅1500個GPU就可以實現(xiàn)!

    超級計算機的運算量主要用雙精度浮點運算能力來考量,現(xiàn)在用18萬顆3GHz的CPU核心來實現(xiàn)100萬GFLOPS的運算量,如果我們想實現(xiàn)2TFLOPS的浮點運算,那就需要30多萬個核心,實現(xiàn)10TFLOPS就需要180萬個CPU,這對于超級計算機制造者來說,幾乎是不可能完成的任務(wù)!

    所以說將來想依靠CPU來實現(xiàn)超級計算機性能的飛躍是很艱難的,這就是CPU序列計算的問題,一個核只能做一件事,要做很多的事就得不斷地堆積核心數(shù)量,這樣超級計算機的規(guī)模、成本、功耗、維護都是各很大的問題。而如果改用GPU來做超級計算的話,所有的問題都會迎刃而解,而且也給未來超級計算機留下了巨大的性能提升空間。

● NVIDIA與惠普以及CRAY公司聯(lián)合發(fā)布小型高性能計算系統(tǒng)。這是否意味著NVIDIA認為高性能計算將從大型計算機發(fā)展到臺式機以及桌邊型計算機上來?

Andy Keane:想要對科學(xué)技術(shù)產(chǎn)生最大的影響,高性能計算就必須發(fā)展到科學(xué)家們的桌面上。每一名研究人員、科學(xué)家以及工程師都應(yīng)該擁有自己的超級計算機,這些計算機應(yīng)該具備足夠的實用性能來滿足他們的工作需要。想象一下如果這些才華橫溢的人們能夠更快地解決問題,那么科學(xué)發(fā)展的節(jié)奏將會變得怎樣。憑借這些基于GPU的工作站以及擁有兼容處理器的超級計算機,現(xiàn)在的技術(shù)計算達到了前所未有的全新水平。

● Tesla個人超級計算機不能獨立運行,那么它的系統(tǒng)配置要求是怎樣的呢,例如CPU、內(nèi)存以及顯卡?

Andy Keane:Tesla個人超級計算機一般需要搭配一顆四核處理器,每個CPU核心匹配一顆GPU。根據(jù)計算問題的具體情況,主內(nèi)存容量可從4到16GB之間選擇。為CPU配備較大內(nèi)存的系統(tǒng)被用于處理更大的數(shù)據(jù)集,例如地震應(yīng)用程序中所使用的數(shù)據(jù)集。分子動力學(xué)等其它類型的應(yīng)用程序則不需要巨大容量的內(nèi)存,因此4GB足夠了。

    圖形處理方面就視應(yīng)用程序而定了。對于大多數(shù)計算應(yīng)用程序來說,NVIDIA板載GPU這樣的簡單GPU或一塊Quadro NVS顯卡就足夠了。如果應(yīng)用程序集計算與可視化于一身,那么這樣的應(yīng)用程序一般需要較高的顯卡性能,可選用從Quadro NVS到高端的Quadro FX 5800產(chǎn)品。

顯卡構(gòu)建1U服務(wù)器 看TESLA近來的發(fā)展
Tesla S1070=由四顆GTX200核心組成,它需要一顆四核CPU的支持

● 能不能說一下個人超級計算機他內(nèi)部是怎么設(shè)計的?戴爾、華碩都會發(fā)布這樣的系統(tǒng),戴爾、華碩他們這些廠商所發(fā)布的個人超級計算機是由 OEM 給他們設(shè)計的還是自己設(shè)計的?

Andy Keane:我們把我們的GPU會給全部的合作伙伴,包括戴爾這樣的廠商,他們會自己進行集成,剛才提到的應(yīng)該是T1060,跟我們一樣,我們就提供 GPU,其他不提供,他們自己集成到他們的系統(tǒng)里。

    從架構(gòu)方面來說某些系統(tǒng)包括3—4個GPU運算單元,它的顯存甚至達到 12—16G,在功耗方面大概是1200瓦到—1350瓦范圍之間,還需要配置一顆4核心的GPU。我們現(xiàn)在做的事情是開啟了一個新的領(lǐng)域,就是個人桌面的超級計算,我們給我們的OEM廠商提供我們的參考設(shè)計,他們根據(jù)他們的情況來開發(fā)他們自己的設(shè)計。

● NVIDIA與惠普以及CRAY公司聯(lián)合發(fā)布小型高性能計算系統(tǒng)。 這是否意味著NVIDIA認為高性能計算將從大型計算機發(fā)展到臺式機以及桌邊型計算機上來?

Andy Keane:想要對科學(xué)技術(shù)產(chǎn)生最大的影響,高性能計算就必須發(fā)展到科學(xué)家們的桌面上。每一名研究人員、科學(xué)家以及工程師都應(yīng)該擁有自己的超級計算機,這些計算機應(yīng)該具備足夠的實用性能來滿足他們的工作需要。想象一下如果這些才華橫溢的人們能夠更快地解決問題,那么科學(xué)發(fā)展的節(jié)奏將會變得怎樣。憑借這些基于GPU的工作站以及擁有兼容處理器的超級計算機,現(xiàn)在的技術(shù)計算達到了前所未有的全新水平。

● 在Tesla Personal Supercomputer發(fā)布之前,各大學(xué)實驗室已經(jīng)使用多塊GeForce顯卡進行科學(xué)計算,那么Tesla和GeForce在并行計算方面有何不同呢?


這些由GeForce顯卡組成的普通電腦,是個人超級計算機的皺型

Andy Keane:硬件方面,第一,Tesla與GeForce的內(nèi)存(即顯存)不同,GTX280是1GB而Tesla C1060是4GB。第二、在設(shè)計方面有一個比較大的區(qū)別,為了保證長期運算的精度和穩(wěn)定性,我們進行一些更加精確和嚴格的測試,比如防燒毀的測試,在這方面Tesla要比GeForce系列更加穩(wěn)定,做的更全面。

    特別提一下為什么多講一些內(nèi)存?因為在高性能計算的領(lǐng)域,內(nèi)存是非常重要的,因為你的內(nèi)存如果是很大的話,計算機在調(diào)用數(shù)據(jù)方面會很快,他就減少了數(shù)據(jù)傳輸?shù)牧?,因為它帶寬量是很大的,?nèi)存量也是很大的,就是內(nèi)存很重要。這里面的內(nèi)存相當(dāng)于Tesla里面它是顯存,指的是GPU在顯卡上板載內(nèi)存的流量,因為Tesla所設(shè)計的并行計算非常龐大,而且對于每個精度、每個數(shù)據(jù)的測試精度要求都非常高,所以不像游戲顯卡一樣顯存有1G的流量,不需要經(jīng)過很多測試就可以去玩游戲。但是對于專業(yè)的應(yīng)用來說其實每個字節(jié)的數(shù)據(jù)都要保證它的精度,這樣我們對Tesla上的顯存的測試比GeForce都要更加的嚴格。

    接下來我進行一下總結(jié),我們要根據(jù)應(yīng)用來選擇是用Tesla還是GeForce,他們都支持CUDA,對于一般的應(yīng)用像玩游戲,或視頻編碼等簡單的并行計算使用廉價的GeForce顯卡即可,而對于特別海量的數(shù)字的科學(xué)運算,比如你在做石油勘探的時候要有數(shù)據(jù)測試,再進行天氣預(yù)報的時候這需要用Tesla,要根據(jù)不同的應(yīng)用選擇不同的卡,盡管他們都支持CUDA,但是要給予不同的應(yīng)用,尤其對數(shù)據(jù)的計算的精確度和專業(yè)度非常高的應(yīng)用,我們推薦Tesla,而且是多路Tesla系統(tǒng)。

● 就硬件來說,我們已經(jīng)了解到Tesla配備的顯存容量比GeForce的更大。然而,Quadro也有一些4GB顯存的版本。NVIDIA如何說服消費者購買Tesla產(chǎn)品而不去選擇價格更便宜的Quadro或GeForce呢?

Andy Keane:這里其實有兩個問題。確實有4GB顯存的Quadro顯卡,但是其價格遠高于Tesla。Quadro支持高速OpenGL渲染,速度遠高于GeForce,因此這項技術(shù)的價格自然高于Tesla。Tesla不支持OpenGL。

    GeForce是計算用戶的另一種選擇。Tesla專為企業(yè)部署而設(shè)計,擁有更高級別的專業(yè)顯存,專為處理計算類應(yīng)用程序而設(shè)計。此外,Tesla產(chǎn)品由NVIDIA設(shè)計、制造和提供質(zhì)保。Tesla市場供應(yīng)周期更長,并提供3年質(zhì)保。對于這些需要更加可靠的企業(yè)級產(chǎn)品的公司,Tesla是最適合的產(chǎn)品。Telsa還有專為數(shù)據(jù)中心設(shè)計的1U系統(tǒng)產(chǎn)品。

● Tesla后續(xù)產(chǎn)品以及芯片技術(shù)規(guī)格是否會沿用同期的GeForce和Quadro產(chǎn)品?或者是會采用只為計算用途而重新設(shè)計的芯片和架構(gòu)?

Andy Keane:當(dāng)前的策略是在Tesla產(chǎn)品線中采用具備特殊特性的標(biāo)準(zhǔn)GPU。現(xiàn)在,GeForce、Quadro以及Tesla中的計算特性是相同的,但是在將來的產(chǎn)品中,Tesla將擁有專為高性能計算而設(shè)計的其它特性。這些產(chǎn)品線中的性能級別也會有所變化。

    通過在專業(yè)級圖形產(chǎn)品中使用與消費級相同的GPU,Tesla在容量較小的高性能計算市場上獲得了規(guī)模經(jīng)濟效益。這就是所有定制高性能計算處理器與系統(tǒng)專業(yè)供應(yīng)商被市場淘汰的主要原因,未來唯一可行的技術(shù)是基于大眾市場的技術(shù),例如GPU。

● Tesla基于NVIDIA CUDA,該技術(shù)最顯著的特點就是能夠利用GPU的并行計算能力,在大規(guī)模、高帶寬計算中有著極大的優(yōu)勢。 但是,面對串行計算密集型任務(wù),Tesla是否有解決辦法呢?

Andy Keane:GPU及其內(nèi)部的CUDA架構(gòu)是專為并行計算而設(shè)計的。

    串行計算是一種有很大區(qū)別的架構(gòu),這種架構(gòu)的設(shè)計目的是為了解決不同的問題。CPU執(zhí)行指令的方式就是一個接著另一個地執(zhí)行。CPU中有許多能夠加速串行計算的技術(shù)。高速緩存、無次序執(zhí)行、超標(biāo)量技術(shù)、分支預(yù)測……均為抽取指令的技術(shù)或一系列指令的串行級并行機制。CPU對片上高速緩存的設(shè)計與容量的依賴也非常大。如果程序大小與CPU高速緩存容量不匹配,那么該程序在CPU上的運行速度將會很慢。

    GPU內(nèi)部的并行計算架構(gòu)圍繞兩個基本概念而設(shè)計。首先,程序中的數(shù)據(jù)可分成許多個部分,而為數(shù)眾多的核群可以并行地處理這些數(shù)據(jù)。第二個架構(gòu)方面的設(shè)想是,數(shù)據(jù)將不與高速緩存匹配。例如在圖形計算或石油天然氣數(shù)據(jù)處理上,數(shù)據(jù)量可能會達到兆字節(jié)甚至是太字節(jié),用高速緩存來容納如此巨大的數(shù)據(jù)量幾乎是不切實際的??紤]到這兩點設(shè)想,GPU被設(shè)計為能夠使用數(shù)以千計的線程,所有線程均并行地執(zhí)行,能夠訪問巨大容量的本地存儲器。在最新的Tesla產(chǎn)品中,每顆GPU均配備4GB存儲器,可容納待執(zhí)行的數(shù)據(jù)。同時針對反復(fù)使用的數(shù)據(jù),還設(shè)有較小的片上存儲空間,GPU所配備的巨大容量存儲器等同于CPU內(nèi)部的高速緩存,只是容量大了許多倍而已。

● 獲取軟件時,中國的超級計算機用戶要么購買商業(yè)軟件解決方案,要么自己開發(fā),或者在商業(yè)軟件解決方案的基礎(chǔ)上進行二次開發(fā)。 CUDA與獨立軟件供應(yīng)商之間有一定的合作,你有沒有成熟的軟件應(yīng)用程序推薦給用戶使用? CUDA怎樣幫助這些想要自己開發(fā)軟件的用戶?

Andy Keane:我們與打算發(fā)布超級計算軟件的獨立軟件供應(yīng)商都進行了積極的開發(fā)工作。分子動力學(xué)領(lǐng)域的《NAMD/VMD》以及《GROMACS》是為群集GPU發(fā)布的兩個應(yīng)用程序例子。在美國的超級計算展會上,我們還展示了許多用于石油天然氣領(lǐng)域地震處理、量子化學(xué)以及Ansys有限元設(shè)計的應(yīng)用程序。

    對于想要自己設(shè)計和開發(fā)應(yīng)用程序的開發(fā)人員,用于CUDA架構(gòu)的并行計算開發(fā)C語言編譯器可從NVIDIA網(wǎng)站上免費下載。Portland Group的Fortran等其它編譯器也正在陸續(xù)推出。有很多來自NVIDIA以及其它來源的程序庫,這些庫使應(yīng)用程序更易于開發(fā)。針對這些不懂C語言或Fortran的開發(fā)人員,Accelereyes以及Wolfram(Mathematica)等公司還提供了GPU加速版的軟件。因此你可以看到,利用GPU計算優(yōu)勢的方式有許多種。

● NVIDIA的GPU都是CUDA架構(gòu),那今后有沒有可能針對CUDA架構(gòu)設(shè)計一種操作系統(tǒng),從而完成GPU徹底取代CPU的X86架構(gòu)?

Andy Keane:我們說CUDA是一種硬件架構(gòu),硬件架構(gòu)很多:X86、Cell,Cell和X86誰也取代不了誰。同樣的GPU的一種架構(gòu)也不會去取代另一種架構(gòu),更不可能越權(quán)取代CPU的架構(gòu)。

    CPU是序列計算,GPU是并行計算,這兩個各司其職,誰也不可能取代誰。拿微軟來講,它的操作系統(tǒng)一定要經(jīng)CPU,但是它提供其他的應(yīng)用比如圖形渲染、多媒體,比如更好更快的Excel這些圖里面,它需要用更大量的數(shù)據(jù)計算、并行計算應(yīng)該放在GPU上,也就是CUDA這個架構(gòu)上。這兩個之間,還是我們強調(diào)的異構(gòu)計算和優(yōu)化PC的概念,這個和我們說的概念沒有任何不一致的方向。

開創(chuàng)視覺計算帝國GTX280/260權(quán)威評測

● 總結(jié):

    CPU和GPU在計算機系統(tǒng)中都是非常重要的部件,在超級計算機系統(tǒng)中,以往都是完全依賴CPU進行數(shù)據(jù)處理,但隨著超級計算機應(yīng)用領(lǐng)域的不斷擴大,CPU的弊端也開始暴露出來,主要問題就是核心數(shù)量的日益增多與存儲帶寬不匹配所致。另外CPU可憐的浮點運算能力也是超級計算機性能提升的另一大瓶頸。

    CPU的這些弊端正是GPU的優(yōu)勢:GPU的浮點運算能力達CPU的幾十倍,存儲帶寬同樣是幾十倍。更加難能可貴的是,超級計算機所處理的任務(wù)正是大量多線程的并行計算,這正是GPU的強項!

    在個人電腦中,GPU不能運行操作系統(tǒng)以及大量日常應(yīng)用軟件,但超級計算機的任務(wù)就是科學(xué)計算以及浮點運算,GPU非常適合這類運算,而且各種科研機構(gòu)會自行開發(fā)相應(yīng)的應(yīng)用軟件,因此完全不用擔(dān)心GPU的應(yīng)用。

    當(dāng)然,不管是個人電腦還是超級計算機,GPU都不可能取代CPU,GPU只是會將那些繁重的并行計算任務(wù)轉(zhuǎn)移過來。未來超級計算機的數(shù)據(jù)處理將主要由GPU完成,而CPU則會起到輔助作用,CPU和GPU這樣一種異構(gòu)協(xié)同處理可以讓超級計算機的性能得到突破!<

0人已贊

關(guān)注我們

泡泡網(wǎng)

手機掃碼關(guān)注