NVIDIA下代Pascal GPU架構(gòu)提升深度學(xué)習(xí)速度
在4月15日,NVDIA(英偉達(dá))在北京舉行了“視覺(jué)計(jì)算 無(wú)處不在”的媒體分享會(huì),在此次會(huì)議上,NVDIA向媒體介紹了NVDIA在深度學(xué)習(xí)技術(shù)上的成就。
深度學(xué)習(xí)指的是計(jì)算機(jī)使用神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)的過(guò)程,在人工智能領(lǐng)域快速成長(zhǎng)的深度學(xué)習(xí)技術(shù)是一項(xiàng)創(chuàng)新的計(jì)算引擎,可應(yīng)用在從先進(jìn)醫(yī)藥研究到全自動(dòng)駕駛汽車的多元領(lǐng)域。
TITAN X 是NVDIA全新推出的旗艦級(jí)游戲顯卡,但也特別適合用于深度學(xué)習(xí)。
在 TITAN X 上能以 4K 的超高畫質(zhì)呈現(xiàn)最新 AAA 游戲大作的瑰麗畫面,可以在開啟 FXAA 高設(shè)定值的情況下,以每秒40幀(40fps)運(yùn)行《中土世界:暗影魔多》(Middle-earth: Shadow of Mordor)游戲,而在九月發(fā)行的 GeForce GTX 980 上則是以 30fps 來(lái)運(yùn)行。
采用 NVIDIA Maxwell GPU 架構(gòu)的 TITAN X,結(jié)合 3,072 個(gè)處理核心、單精度峰值性能為 7 teraflops,加上板載的 12GB 顯存,在性能和性能功耗比方面皆是前代產(chǎn)品的兩倍。
憑借強(qiáng)大的處理能力和 336.5GB/s 的帶寬,讓它能處理用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的數(shù)百萬(wàn)的數(shù)據(jù)。例如, TITAN X 在工業(yè)標(biāo)準(zhǔn)模型 AlexNet 上,花了不到三天的時(shí)間、使用 120萬(wàn)個(gè) ImageNet 圖像數(shù)據(jù)集去訓(xùn)練模型,而使用16核心的 CPU 得花上四十多天。
現(xiàn)已上市的GeForce GTX TITAN X 售價(jià)為 7999元人民幣。
NVDIA預(yù)計(jì)于明年推出的 Pascal 架構(gòu) GPU 將使深度學(xué)習(xí)應(yīng)用中的計(jì)算速度加快十倍。
Pascal 架構(gòu) GPU 的三大設(shè)計(jì)特色將大幅加快訓(xùn)練速度,精準(zhǔn)地訓(xùn)練更豐富的深度神經(jīng)網(wǎng)絡(luò),猶如人類大腦皮層的資料結(jié)構(gòu)將成為深度學(xué)習(xí)研究的基礎(chǔ)。
再加上 32GB 的顯存(是NVIDIA 新發(fā)布的旗艦級(jí)產(chǎn)品 GeForce GTX TITAN X 的 2.7 倍),Pascal 架構(gòu)可進(jìn)行混合精度的計(jì)算任務(wù)。它將配備 3D 堆疊顯存,提升深度學(xué)習(xí)應(yīng)用程序的速度性能多達(dá)5倍;另搭配 NVIDIA 的高速互連技術(shù) NVLink 來(lái)連接兩個(gè)以上的 GPU,可將深度學(xué)習(xí)的速度提升達(dá)十倍。
混合精度計(jì)算 – 達(dá)到更精準(zhǔn)的結(jié)果
混合精度計(jì)算讓采用 Pascal 架構(gòu)的 GPU 能夠在 16 位浮點(diǎn)精度下?lián)碛袃杀队?32 位浮點(diǎn)精度下的速率的計(jì)算速度。
更出色的浮點(diǎn)計(jì)算性能特別提高了深度學(xué)習(xí)兩大關(guān)鍵活動(dòng):分類和卷積的性能,同時(shí)又達(dá)到所需的精準(zhǔn)度。
3D 堆疊顯存 – 更快的傳輸速度和優(yōu)秀的省電表現(xiàn)
顯存帶寬限制了數(shù)據(jù)向 GPU 傳輸?shù)乃俣?。采?3D 堆疊顯存將可提高比 Maxwell 架構(gòu)高出三倍的帶寬和近三倍的容量,讓開發(fā)人員能建立更大的神經(jīng)網(wǎng)絡(luò),大大提升深度學(xué)習(xí)訓(xùn)練中帶寬密集型部分的速度。
Pascal 采用顯存芯片逐個(gè)堆疊的技術(shù),位置接近 GPU 而不是處理器板更往下的地方。如此就能把輸出在顯存與 GPU 間往返的距離從幾英寸減縮到幾毫米,大幅加快傳輸速度和擁有更好的省電表現(xiàn)。
NVLink – 更快的數(shù)據(jù)移動(dòng)速度
Pascal 架構(gòu)加入 NVLink 技術(shù)將使得 GPU 與 CPU 之間數(shù)據(jù)傳輸?shù)乃俣?,較現(xiàn)有的 PCI-Express 標(biāo)準(zhǔn)加快5到12倍,對(duì)于深度學(xué)習(xí)這些需要更高 GPU 間傳遞速度的應(yīng)用程序來(lái)說(shuō)是一大福音。
NVLink 可將系統(tǒng)里的 GPU 數(shù)量增加一倍,以共同用于深度學(xué)習(xí)計(jì)算任務(wù)上;還能以新的方式連接 CPU 與 GPU,在服務(wù)器設(shè)計(jì)方面提供較 PCI-E 更出色的靈活性和省電表現(xiàn)。
DIGITS:通往非常好的深度神經(jīng)網(wǎng)絡(luò)的便捷之路
使用深度神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練電腦教自己如何分類和識(shí)別物體,是一件繁重又費(fèi)時(shí)的事情。
DIGITS 深度學(xué)習(xí) GPU 訓(xùn)練系統(tǒng)軟件自始至終都將為用戶提供所需數(shù)據(jù),幫助用戶建立最優(yōu)的深度神經(jīng)網(wǎng)絡(luò),改變上述的局面。
DIGITS 可在安裝、配置和訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)過(guò)程中為用戶提供指導(dǎo) – 處理復(fù)雜的工作好讓科學(xué)家能專心在研究活動(dòng)和結(jié)果上。
得益于其直觀的用戶界面和強(qiáng)大的工作流程管理能力,不論是在本地系統(tǒng)還是在網(wǎng)絡(luò)上使用 DIGITS,準(zhǔn)備和加載訓(xùn)練數(shù)據(jù)集都相當(dāng)簡(jiǎn)單。
這是同類系統(tǒng)中首個(gè)提供實(shí)時(shí)監(jiān)控和可視化功能的系統(tǒng),用戶可以對(duì)工作進(jìn)行微調(diào)。它還支持 GPU 加速版本 Caffe,目前,這一框架在眾多數(shù)據(jù)科學(xué)家和研究人員中都得到了廣泛使用,用于構(gòu)建神經(jīng)網(wǎng)絡(luò)?!?/p>
關(guān)注我們
