寶劍鋒自磨礪出!細談RV770背后的故事
● 重新評估策略:2005年設計RV770
記住導致成功的因素比記住成功更重要。2005年ATI的處境和當初設計R300的時候相似。R300的成功是因為ATI重新評估了制造GPU的策略。在那個時候,ATI決定造一顆大芯片來贏得高端,并將其轉(zhuǎn)化為每一個價格區(qū)間都有競爭力的產(chǎn)品。值得一提的是R300的持續(xù)成功還部分歸因于NVIDIA在GeForce FX上的失敗。這是ATI上演的完美風暴。ATI造了一顆最大的GPU,NVIDIA在其后的一段時間里無法回應。正如Intel在試圖瘋狂提高P4的頻率時撞上了功耗墻。但是2005年時,ATI開始發(fā)現(xiàn)GPU(當時ATI還稱核心為VPU)過于龐大了。設計周期越來越長,芯片面積不斷增長。制造如此大的GPU已經(jīng)不是那么合算了。

設計芯片技術(shù)不是唯一,設計策略才是大局轉(zhuǎn)變的關(guān)鍵
AMD認為一顆非常大的GPU,如果沒有使用Repair Structures和Harvesting(兩種技術(shù)我稍后會討論)的話,只有30%是可用的。也就是說,對一片晶圓而言,每100個GPU只有30%是功能完好,可以零售的。制造如此復雜的電路成本是非常昂貴的,那些Fab的設備造價很容易就達到數(shù)十億美金。所以不能讓如此多的晶圓被浪費。謝天謝地有技術(shù)可以讓30%可用變成90%可用。第一種技術(shù)稱之為可修復性(Repair Structures)。
其思想非常簡單:設計冗余單元。如果芯片某個功能單元包含10個流處理器,實際上要設計11個流處理器。如果有瑕疵出現(xiàn)那么我們可以啟用那個備用的流處理器。這種技術(shù)通常也用在片上內(nèi)存(on-die memory)的設計上。這樣當某一部分出現(xiàn)問題時,不會導致整個功能單元不能用。但是這個地方通常有個折中,如果你設計了太多的冗余單元,那么你就面臨著芯片面積太大的風險,并且這些增大的面積對實際性能毫無貢獻。但是如果你設計的冗余單元不夠,那么你的良品率就不足。
第二種技術(shù)稱之為Harversting,所有人肯定都很熟悉。其思想是:假設一片晶圓上功能完好的芯片只有很少一部分,但是我們并不丟掉那些有瑕疵的芯片,我們關(guān)閉某些功能單元,然后把他們當做低端芯片賣。例如,如果你設計某個功能單元包含了10個流處理器,預期只有30%的產(chǎn)品是10個流處理器都可用,50%的產(chǎn)品可用其中的8個。那么你可以把8個流處理器可用的芯片當做稍微低端的芯片賣。因此這種方法使得一片晶圓上80%的芯片都可用,如果可能的話,你還可以屏蔽更多的流處理器單元,使得接近100%的芯片都可用。良率會隨著時間改善,如果你一直依賴于Harversting,那么這種方法最終會損害你的財務表現(xiàn)。在上面的例子中,隨著良率的改善,越來越多的芯片10流處理器可用,但是你還是只能當成8流處理器賣。某種意義上說,值一塊錢的東西你賣八毛錢。當然你也可以設計8流處理器的新版本,但是這會耗費額外的時間、金錢和工程師資源。
GT200系列就是采用Harvesting技術(shù)的典型。GeForce GTX260就是GTX280的Harvesting版本。隨著良率的改善,NVIDIA推出了GeForce GTX 260+(216 SP)。但是要注意并沒有為GT200系列設計任何的冗余單元。因此GT200系列的芯片上最多有240個流處理器,如果240個流處理器不能用的話,那么就當成GTX260或者GTX260+來賣。與之形成鮮明對比的是RV770系列,兩個版本的RV770功能單元的規(guī)格都是一致的,所不同的只有頻率和功耗的不同。從芯片的角度來看,AMD不必通過賣縮減版本的產(chǎn)品來保證良率(編者按:估計AnandTech站長當時還不知道Radeon HD4830)。注意,一家公司是否采用Harvesting技術(shù)并不會影響終端用戶。
在這種情況下,GeForce GTX260/260+實際上對終端用戶是有利的,因為它具有和Radeon HD4870同樣的價值。但是它無助于改善NVIDIA的財務表現(xiàn),如果一家公司長期依賴于Harvesting策略的話,最終是要付出代價的。但是我懷疑NVIDIA會在事情變壞之前用55nm的GT200版本使自己全身而退。AMD并不想設計一顆GPU過度依賴于靠Repair和Harvesting來提高良率。于是一個殺手級的論斷出爐:制造大型的GPU并非最符合客戶利益。
關(guān)注我們


