術(shù)業(yè)有專(zhuān)攻——AI系統(tǒng)主控CPU英特爾至強(qiáng)6新品處理器淺析
一、至強(qiáng)6與NVIDIA GPU 協(xié)同的硬件基礎(chǔ)
在 AI 異構(gòu)計(jì)算架構(gòu)中,英特爾至強(qiáng)6處理器作為主控CPU可以與NVIDIA最新GPU 很好地協(xié)同。根據(jù)英偉達(dá)官網(wǎng)信息,目前其DGX B300系統(tǒng)選擇至強(qiáng)6776P作為唯一主控CPU,采用雙路配置,通過(guò)UPI總線實(shí)現(xiàn)CPU間互連。這8個(gè)GPU通過(guò)NVLink高速互連,是性能比較高端的DGX,為訓(xùn)練等應(yīng)用而設(shè)計(jì)。
作為主控CPU,它和GPU協(xié)同工作,而這個(gè)系統(tǒng)的性能受到諸多因素的影響,這里列出的是最主要的因素,包括I/O、核心性能、內(nèi)存(包括帶寬和容量)、CPU上的預(yù)處理或卸載(offload)能力、整體CPU系統(tǒng)的RAS,以及各種硬件的外形設(shè)計(jì)等。這些都會(huì)影響整個(gè)AI系統(tǒng)的端到端性能,因此AI系統(tǒng)通常比較復(fù)雜。
這一設(shè)計(jì)的性能提升要點(diǎn)在于:
1.業(yè)界領(lǐng)先的I/O通道和內(nèi)存能力
AP平臺(tái)的雙路至強(qiáng)6最多可以提供192條PCIe 5.0通道,也就是可以每路提供96條通道,相比上一代提升20%,內(nèi)存通道也可以高達(dá)12個(gè)。直接匹配多GPU的高速接入需求,避免因通道不足導(dǎo)致的帶寬瓶頸。
在SP平臺(tái)上,英特爾還提供了一個(gè)差異化的產(chǎn)品,就是在單個(gè)CPU插槽上提供了更豐富的I/O資源(Rich I/O one socket),總共有136根的PCIe通道,持單插槽連接多塊加速卡與存儲(chǔ)設(shè)備,適用于邊緣端“預(yù)處理+推理”一體化場(chǎng)景。同時(shí),其高帶寬內(nèi)存可容納更大模型參數(shù),提升訓(xùn)練效率。在推理場(chǎng)景中,靈活的核心配置確保資源高效利用,滿足多樣化需求。
2.核心性能優(yōu)化
至強(qiáng)6區(qū)別于上一代產(chǎn)品的關(guān)鍵技術(shù)突破是Priority Core Turbo(PCT),其技術(shù)本質(zhì)是通過(guò) Speed Select(SST)將單路CPU核心劃分為兩組:最多8個(gè)高頻核心(PCT 核心)與剩余低頻核心。在DGX B300場(chǎng)景中,這一技術(shù)直接服務(wù)于 “CPU 驅(qū)動(dòng) GPU” 的典型需求,實(shí)現(xiàn)高頻核心的精準(zhǔn)調(diào)度:當(dāng) GPU 需要快速獲取預(yù)處理數(shù)據(jù)(如從內(nèi)存讀取原始數(shù)據(jù)并完成清洗、特征工程)時(shí),8個(gè)PCT核心可睿頻至4.6GHz(傳統(tǒng)64核SKU最大睿頻為3.9GHz),相比全核睿頻(3.6GHz)提升28%。這一特性縮短了數(shù)據(jù)從CPU到GPU的傳輸延遲。
3.資源分配的靈活性
PCT核心數(shù)量可通過(guò)BIOS或 SST-TF工具動(dòng)態(tài)配置,客戶(hù)可根據(jù)實(shí)際負(fù)載調(diào)整——客戶(hù)在使用時(shí)可以根據(jù)需要選擇8個(gè)、6個(gè)、4個(gè)或2個(gè)PCT核心。例如推理場(chǎng)景中若僅需4塊GPU工作,可配置4個(gè)PCT 核心對(duì)應(yīng)驅(qū)動(dòng),避免資源浪費(fèi)。與上一代 Max Turbo 技術(shù)的差異在于:PCT允許全核在線(無(wú)需半數(shù)核心休眠),且維持相同 TDP(350W)與散熱設(shè)計(jì),確保硬件兼容性,降低客戶(hù)部署成本。
4.更強(qiáng)的內(nèi)存架構(gòu)兼容性
更高的內(nèi)存帶寬對(duì)于AI工作負(fù)載至關(guān)重要,因?yàn)锳I的工作流程是一個(gè)完整的數(shù)據(jù)處理管道,而非單一環(huán)節(jié)。在這一過(guò)程中,CPU首先負(fù)責(zé)預(yù)處理,從內(nèi)存中讀取數(shù)據(jù)并進(jìn)行初步處理,隨后將數(shù)據(jù)傳輸至GPU。比如,至強(qiáng)6支持8通道到12通道的DDR5-6400內(nèi)存,還支持MRDIMMs,能提供更高的30%帶寬。
在LLM的生成式推理(如文本續(xù)寫(xiě))中,自注意力機(jī)制需為每個(gè)已處理的Token生成并存儲(chǔ)鍵(Key)和值(Value)矩陣,即KV Cache。KV Cache避免了在解碼階段重復(fù)計(jì)算歷史Token的注意力狀態(tài),但會(huì)隨序列長(zhǎng)度線性增長(zhǎng),占用大量GPU顯存,需要卸載到下一級(jí)存儲(chǔ)中。對(duì)于CXL內(nèi)存來(lái)說(shuō),有一個(gè)典型用例是KV Cache的卸載,通過(guò)用CXL內(nèi)存去替代SSD,這樣KV Cache的訪問(wèn)速度顯著增快,從而提升了性能。
5.RAS和數(shù)據(jù)預(yù)處理
在企業(yè)級(jí) AI 訓(xùn)練場(chǎng)景中,系統(tǒng)可靠性直接影響算力利用率與TCO。至強(qiáng)6的RAS 體系覆蓋全硬件鏈路,可以通過(guò)RAS特性來(lái)可以提高I/O的穩(wěn)定性、內(nèi)存系統(tǒng)穩(wěn)定性、UPI鏈路穩(wěn)定性、CPU及平臺(tái)穩(wěn)定性。CPU卸載則是針對(duì)MoE(混合專(zhuān)家)模型的另一種優(yōu)化方式。目前市場(chǎng)上已有諸多關(guān)于通過(guò)AMX矩陣技術(shù)將部分MoE模型中的專(zhuān)家層卸載至至強(qiáng)處理器的案例。
二、為何是至強(qiáng)6776P?
NVIDIA DGX B300選擇的雙路至強(qiáng) 6776P 的核心價(jià)值在于業(yè)界領(lǐng)先的I/O能力、領(lǐng)先的內(nèi)存帶寬、大內(nèi)存容量、領(lǐng)先的RAS能力已經(jīng)為特定AI負(fù)載優(yōu)化的PCT產(chǎn)品。
其4.6GHz的睿頻能力顯著加速數(shù)據(jù)處理,PCT核心以4.6GHz頻率加速數(shù)據(jù)預(yù)處理(如文本分詞、圖像解碼),通過(guò)高速 PCIe 通道將數(shù)據(jù)傳輸至GPU,形成 “CPU 預(yù)處理→GPU 計(jì)算”的流水線作業(yè)。這款處理器擁有單路88條PCIe通道,雙路則達(dá)到176條。
英偉達(dá)選擇了2 DPC架構(gòu)(每顆CPU提供8通道內(nèi)存,每通道2個(gè)DIMM)進(jìn)行配置,雙路系統(tǒng)可搭載32根DIMM,內(nèi)存最大容量達(dá)8TB。
綜述:開(kāi)放生態(tài)的實(shí)際意義
至強(qiáng)6的核心優(yōu)勢(shì)在于開(kāi)放性與兼容性。客戶(hù)硬件選擇自由,可以根據(jù)成本動(dòng)態(tài)切換,避免被單一供應(yīng)商鎖定。在軟件生態(tài)兼容層面,至強(qiáng)6也完全支持主流 AI 框架(如 TensorFlow、PyTorch)與云原生技術(shù),無(wú)需重新開(kāi)發(fā)適配層,降低技術(shù)遷移成本。
從英偉達(dá)的選擇邏輯看,DGX B300 采用至強(qiáng)6應(yīng)該并非單一性能導(dǎo)向,而是綜合考量了生態(tài)開(kāi)放性、成本可控性與技術(shù)成熟度 —— 至強(qiáng) 6 作為量產(chǎn)級(jí)產(chǎn)品,其穩(wěn)定性與供應(yīng)鏈可靠性已通過(guò)大規(guī)模數(shù)據(jù)中心驗(yàn)證。
至強(qiáng)6在搭配N(xiāo)VIDIA GPU場(chǎng)景中的價(jià)值,本質(zhì)上源于其對(duì)“CPU 角色”的清晰定位:核心數(shù)量或睿頻頻率,都是圍繞 GPU 協(xié)同需求而定,根據(jù)用戶(hù)的不同需求,也可以選擇不同的CPU型號(hào)。在關(guān)鍵路徑(如高頻數(shù)據(jù)傳輸、大內(nèi)存容量、系統(tǒng)穩(wěn)定性)上,至強(qiáng)6可以實(shí)現(xiàn)精準(zhǔn)優(yōu)化。對(duì)于企業(yè)客戶(hù)而言,這意味著在 AI 基礎(chǔ)設(shè)施建設(shè)中,可通過(guò)標(biāo)準(zhǔn)化硬件獲取可預(yù)期的性能提升,同時(shí)避免為冗余功能支付額外成本。這種 “需求導(dǎo)向型” 技術(shù)路線,或許正是其成為英偉達(dá)首選主控 CPU 的核心原因。
關(guān)注我們
