PCIE X1都夠用?顯卡到底需要多少帶寬
泡泡網(wǎng)顯卡頻道9月5日 電影《功夫》里的終極BOSS火云邪神說過一句話:“天下武功,無堅不破,唯快不破”,功夫再高也怕被人瞬間秒殺。這說明無論是防守還是進(jìn)攻,速度都是決定性因素,對速度有著極度需求的還有電腦上的系統(tǒng)總線。系統(tǒng)總線是是用來連接處理器與其他部件的一束信號線, 通過系統(tǒng)總線架起了處理器與其他部件之間進(jìn)行信息傳遞的通道。
它的歷史悠久,三十年前個人電腦剛剛問世的時候就開始存在,但是相比PC部件中的CPU、顯卡1-2年就要換一代的發(fā)展速度,系統(tǒng)總線的發(fā)展可謂龜速,自從IBM于1982主導(dǎo)制定了ISA標(biāo)準(zhǔn)以來,目前只有ISA、92年發(fā)布的PCI和2001年發(fā)布的PCI Express三種標(biāo)準(zhǔn)規(guī)范,基本上每隔10年才更換一次架構(gòu),目前的主流是PCI-E 2.0。
PCI-E總線在顯卡上應(yīng)用的如此成功,以至于一提到PCI-E,很多人第一個想到的就是顯卡,實際上PCI-E更多地是作為系統(tǒng)總線存在的,不僅是顯卡的數(shù)據(jù)要通過它,就連我們使用最多的USB、SATA等其他接口的數(shù)據(jù)最終都是通過PCI-E總線才能與CPU鏈接。
正因為此,主板上PCI-E通道數(shù)量的多少往往成為衡量主板性能等級的重要指標(biāo)之一,別看有些主板提供了三條或者四條顯卡插槽,但是由于芯片組或CPU提供的PCI-E通道不足,實際使用中會有很大局限。
目前PCI-E的主流標(biāo)準(zhǔn)是2.0,下一代PCI-E 3.0標(biāo)準(zhǔn)也公布了很久了,只是相關(guān)的硬件還沒有完全到位,只有CPU、主板和顯卡同時支持之后我們才能享受到PCI-E 3.0帶來的快感。
單位換算:“位(bit)”和“字節(jié)(byte)”的關(guān)系大家都知道了,理論上1byte=8bit,1GB=8Gb,1GBps=8Gbps,還有一個單位是Transfer/s(縮寫T/s),這是一個速率單位,在AMD的HT和Intel的QPI介紹中很常見,1T/s與1bps/s可以看作是等價的,即1B=8b=8T/s。
● 需要注意的是,在一些新的技術(shù)標(biāo)準(zhǔn)中,為了防止數(shù)據(jù)在高速傳輸中出錯而加入了校驗碼,比如PCI-E 2.0、USB 3.0和SATA 3.0中采用的是8/10編碼,每10位編碼中只有8位是真實數(shù)據(jù),這時單位換算就不再是1:8而是1:10了,USB 3.0的5Gbps速度實際上是理論500MB/s而非理論625MB/s,SATA 6Gbps的理論速度則是600MB/s而非750MB/s。
● 帶寬計算:PCI-E的帶寬計算與顯存帶寬(B/s)=運行頻率(MHz)*數(shù)據(jù)倍率*顯存位寬(bit)?相類似,只是前者公式略微復(fù)雜一些,串行PCI-E帶寬(B/s)=PCIE時鐘頻率*每周期數(shù)據(jù)位(bit)*總線通道數(shù)*編碼方式?,以最常見的PCI-E 2.0 x16插槽為例,其時鐘頻率為5GHz(通過基準(zhǔn)頻率和PLL鎖相環(huán)得到),每周期可傳輸2bit數(shù)據(jù),16條通道,8/10編碼,其傳輸總帶寬=5000*2*16*8?0?=16GB/s。
首先,向大家簡單講解一下PCI-E接口的針腳定義。從顯卡金手指部分的走線上可以非常清楚的分辨出單個通道的線路。如下圖所示,顯卡正面,每個紅色箭頭指向一個PCI-E通道。黑色圓圈內(nèi)為顯示核心的PCI-E第十三根通道連接顯卡第十三根PCI-E通道金手指的PCB走線,正面每通道只有兩根走線是數(shù)據(jù)所用,與GPU連接,其余為地線。相同的,每根PCI-E通道都可以通過此方法來分辨出來。
我們通過用膠帶覆蓋顯卡PCI-E接口金手指的方法來屏蔽,由于PCI-E每個通道彼此互相獨立,并且支持通道數(shù)量向下兼容(如果x16設(shè)備插在x1槽上,則自動降為x1)。
其中數(shù)據(jù)分通道傳輸模式即PCI-E總線的x1、x2、x4、x8、x12、x16和x32多通道連接,x1單向傳輸帶寬即可達(dá)到250MB/s,雙向傳輸帶寬更能夠達(dá)到500MB/s。目前我們所用的PCI-E顯卡就是基于分通道傳輸模式的x16通道連接。
● 注意:PCI-E通道只支持 x1、x4、x8、x16、x32模式,如果屏蔽了16根中的1根是無法達(dá)到PCI-E x15模式的,系統(tǒng)會將之降級為PCI-E x8模式。因此,想玩非主流的同學(xué)會有所失望。
為了充分體驗出PCI-E接口不同通道數(shù)的性能差距,我們選用了當(dāng)前最高端但核心顯卡某品牌GTX580來做測試用卡,平臺配置如下圖所示。
關(guān)于為什么用GTX580會比較準(zhǔn)確的問題的解釋。GTX580有512個CUDA核心,擁有相當(dāng)強大的計算性能,因此對帶寬的要求會很高。
測試項目介紹:3D Mark Vantage、3D Mark 11、ComputeMark 2.1、IghashGPU、Cyber LinkMediaShow 6.5、《街霸4》、《鷹擊長空》、《塵埃2》、《地鐵2033》。其中3D Mark Vantage和3D Mark 11是測試各模式下顯卡的理論3D性能,ComputeMark 2.1測試顯卡的DirectCompute通用計算性能,IghashGPU測試顯卡CUDA的暴力破解密碼能力,CyberLink MediaShow 6.5測試CUDA視頻轉(zhuǎn)碼性能,游戲則是用來測試實際3D性能用的,為了測試出最真實的性能成績,所有游戲分辨率為1920x1200,特效均開到最高并且開啟4xAA和16xAF。
● DX10理論性能測試:3DMark Vantage
3DMark Vantage已于2008年4月28日發(fā)布,是業(yè)界第一套專門基于微軟DX10 API打造的綜合性基準(zhǔn)測試工具,并能全面發(fā)揮多路顯卡、多核心處理器的優(yōu)勢,能在當(dāng)前和未來一段時間內(nèi)滿足PC系統(tǒng)游戲性能測試需求。和3DMark05的DX9專用性質(zhì)類似,3DMark Vantage是專門為DX10顯卡量身打造的,而且只能運行在Windows Vista SP1操作系統(tǒng)下。它包括兩個圖形測試項目、兩個處理器測試項目、六個特性測試項目。
● DX11理論性能測試:3DMark 11
PC游戲隨去年Windows 7的發(fā)布進(jìn)入DirectX 11時代,然而眾多“參賽選手”DX11顯卡早已磨拳擦掌準(zhǔn)備上陣廝殺,我們卻遲遲沒有一個權(quán)威性的基準(zhǔn)測試軟件,來衡量游戲顯卡DX11性能的高低。終于,DX11時代的3DMark在今天來到了我們面前。
我們通過圖表可以更為清晰的得到PCI-E接口在各個模式下的總體性能。對于3D Mark Vantage來說,x1模式下,PCI-E接口成了系統(tǒng)性能的最大瓶頸,相比x4模式低了約3000分,當(dāng)PCI-E通道數(shù)達(dá)到了x4,性能就比較穩(wěn)定了,與x8、x16差距不是很明顯,這主要是由于3D Mark對GPU的要求是第一位的,對于PCI-E通道帶寬需求并不明顯。相同的,3D Mark 11也是如此。
● 超級街霸4:
《超級街頭霸王4:Super Street Fighter IV》是繼《街頭霸王IV》后CAPCOM推出的“街霸”最新作,如名所示,本作在《街頭霸王IV》的系統(tǒng)基礎(chǔ)上追加眾多新要素,T.Hawk等過去作品的登場角色將在本作中出現(xiàn),除此之外還加入如“茱莉(ジュリ)”等新角色。
實際游戲測試中對于GPU要求不高的《街頭霸王4》顯現(xiàn)出了PCI-E高帶寬下的優(yōu)勢,從PCI-E x1到PCI-E x16模式,性能提升了接近一倍。每提升PCI-E接口的一個檔次,性能也隨之提升一個檔次,直到PCI-E x8提升為PCI-E x16性能提升率才略有下降。
● 鷹擊長空:
《HAWX》的故事背景設(shè)定在2012年,私人企業(yè)武裝力量日趨強大,世界正處在分崩離析陷入大戰(zhàn)的邊緣。玩家可以駕駛超過50種戰(zhàn)機在高空中打擊敵方力量。除了單人游戲外,游戲還將支持4人協(xié)同的編隊模式,以及最高16人的對戰(zhàn)模式。
在對GPU性能需求略有提升的《鷹擊長空》中,PCI-E x1與其他模式差距依然很大。直到提升到x8模式,性能得到顯著的提升,當(dāng)提升到x16模式的時候,性能與x8模式的差距基本上不是很明顯。
● 塵埃2:
良好的賽車穩(wěn)定性、制動性和簡單的賽道設(shè)計大大降低游戲難度,即使是賽車菜鳥也可以容易上手;比賽結(jié)束后的重播功能讓玩家可以自由選擇視角和控制播放進(jìn)度,加上出色的畫面、良好的駕駛手感、杰出的單人游戲設(shè)定、在各種跑道上的不同操控感覺,極具臨場感的《科林麥克雷:塵埃2》絕對適合所有喜愛賽車游戲的玩家。
在《塵埃2》測試中,PCI-E x1模式依然與其他模式有很大差距,x4、x8、x16各模式下性能差距也很明顯。
● 地鐵2033:
《地鐵2033》題材基于俄羅斯最暢銷小說Dmitry Glukhovsky。由烏克蘭4A游戲工作室開發(fā),采用4A游戲引擎,而且PC版支持nvidia的PhysX物理特效。 2013年,由于大面積的核泄漏,導(dǎo)致幾乎所有的人類都被消滅,而且地面已經(jīng)被污染無法生存,極少數(shù)幸存者存活在莫斯科的深度地下避難所里(俄羅斯的地鐵站在建造之初就有防空防炸防核防輻射的設(shè)計)人類文明進(jìn)入了新的黑暗時代。直至2033年,整整一代人出生并在地下成長,他們長期被困在“地鐵站”的城市。
《地鐵2033》是目前對GPU性能要求最高的游戲之一,PCI-E x1模式依然是性能瓶頸,當(dāng)提升到x4模式的時候性能與提升到x8、x16的差距微乎其微,都是很卡。
● GPU加密解密測試:
GPU破解RAR密碼,這是一個相當(dāng)有趣的小工具,能夠讓你用 GPU 暴力破解密碼。
GPU CUDA解密貌似對PCI-E帶寬非常非常非常不敏感,不管是x1、x4、x8還是、x16模式,解密的速度都是一樣的。
● DirectCompute理論測試:
微軟在DX11中引入了通用計算接口標(biāo)準(zhǔn)DirectCompute,并在渲染架構(gòu)中新增了Compute Shader,都是為了發(fā)揮GPU的并行計算優(yōu)勢,將其應(yīng)用范圍從單純的圖形渲染拓展到更多計算領(lǐng)域,因此通用計算性能的高低將在今后成為衡量顯卡整體性能的一部分。
ComputeMark由捷克硬件和游戲網(wǎng)站CzechGamer.com的Robert Varga開發(fā)完成,技術(shù)上基于Jan Vlietinck的Fluid3D Demo,號稱是“第一個百分之百的DX11 Compute Shader基準(zhǔn)測試工具”,一般情況下能夠調(diào)動99%的GPU資源,CPU占用率只有0-1%,因此在考察GPU通用計算性能的同時,也能考驗顯卡的穩(wěn)定性,對超頻亦有所幫助,另外測試的時候還可以自行選擇運行時間(單位秒)。
ComputeMark要求純粹的DX11環(huán)境才能運行,包括Windows 7 32/64位操作系統(tǒng)、DX11 API和DX11顯卡。
DirectCompute通用計算ComputeMark測試得出的成績顯示出GPU對于PCI-E帶寬非常不敏感,PCI-E x1就足夠發(fā)揮出全部性能了。
● GPU視頻轉(zhuǎn)碼測試:
MediaShow Espresso是第一款同時支持CUDA與Stream加速的視頻轉(zhuǎn)換軟件,除此之外它還對Intel?Core i7處理器的超線程及SSE4指令集做了優(yōu)化,因此無論純CPU轉(zhuǎn)碼還是GPU加速,其速度比傳統(tǒng)軟件都要快。
在視頻轉(zhuǎn)碼測試中,PCI-E x1的帶寬明顯不足,與其他模式下的成績有很大差距,當(dāng)通道數(shù)x4模式以上時,性能的提升已經(jīng)不是很明顯,每提升一個模式,可以獲得2s的性能提升。
● 全文總結(jié):
就目前的GPU性能來看,PCI-E x16 2.0的帶寬對于單芯單卡已經(jīng)足夠用,目前的瓶頸是GPU的性能。
對于游戲來說,GPU可能需要更高的接口帶寬,游戲的FPS越高,GPU就需要頻繁的與CPU互換數(shù)據(jù),此時就需要很高的帶寬支持。而如果FPS很低的話,對于接口帶寬要求就很低了。
由于時間的限制編輯并沒有做雙卡及多卡的測試,相信多卡模式下對PCI-E帶寬的要求會非常高。單卡下GTX580都如此,甚至編輯覺得一些低端顯卡完全都用不上x16的高帶寬。眼看著PCI-E 3.0即將來到我們的身邊,將為我們帶來32GB/s的傳輸速率,當(dāng)然這是為下一代高端顯卡準(zhǔn)備的。
不過對于通用計算來說,顯然CPU與GPU之間的數(shù)據(jù)交換遠(yuǎn)不如游戲中那么頻繁,對于接口帶寬的要求很低,很多時候PCI-E X1都夠用了?!?/P>
擴(kuò)展閱讀《帶寬不是問題!物理子卡實際應(yīng)用測試》<
關(guān)注我們
