NVIDIA 開始向 OpenAI、Anthropic 和 SpaceX 交付首批 1.2 TB/s Vera CPU

NVIDIA 開始交付其 Vera CPU,這是一款基於 Arm 架構的自定義處理器,專為應對現代人工智能工作負載對內存的高需求而設計。這款晶片代表了 NVIDIA 加深進入 CPU 市場的步伐,目標是與已部署其 GPU 硬件的數據中心機架相同。首批 NVIDIA Vera CPU 已於週五送達前沿自動化實驗室,包括位於舊金山的 Anthropic、位於使命灣的 OpenAI 及位於帕洛阿爾託的 SpaceXAI。

Vera 使用 NVIDIA 的自定義 Arm 基礎核心,從主導數據中心計算數十年的 x86 架構轉變而來。這一設計重點關注內存帶寬,這在大型語言模型推理中是一個已知的瓶頸,通過將處理器與高帶寬內存子系統配對來解決。這種方法針對一個根本性限制:現代 AI 模型需要快速在內存和計算單元之間移動大量權重數據,而傳統的 DRAM 帶寬通常在原始計算能力之前就限制了吞吐量。

NVIDIA Vera CPU 旨在解決人工智能工作負載的內存需求

Vera CPU 旨在與 NVIDIA 的 Blackwell 代 GPU 一起運作,形成緊密耦合的 CPU-GPU 系統。這種異構配置旨在分配工作負載,使 CPU 負責協調、預處理和內存管理,而 GPU 則執行主導變壓器推理的密集矩陣運算。這種分工是否能在獨立基準測試中顯示出可測量的延遲改善尚待證明。

NVIDIA 的 Vera 是在 Grace CPU 的基礎上建立的,Grace CPU 本身是一款 Arm 基礎的處理器,作為 Grace Hopper 超級晶片的一部分推出。Vera 的交付公告將這款晶片納入 NVIDIA 更廣泛的平台戰略中,NVLink 結構將 CPU 和 GPU 以高於 PCIe 的帶寬連接。NVLink 的晶片間互連減少了通常與 CPU 到 GPU 數據傳輸相關的延遲懲罰,儘管在實際數據中心部署中的完全帶寬數據依賴於系統配置和熱約束。

對於設計 AI 基礎設施的工程師而言,實際問題是 Vera 的內存子系統和 NVLink 整合是否足以説明離開既有的 x86 基礎伺服器架構的合理性。將軟件堆疊遷移至 Arm 需要重新編譯,可能存在與舊有 x86 二進制兼容性的差距,以及操作人員重新培訓的成本,而這些成本通常不會反映在標題性能數據中。

NVIDIA 進入了一個伺服器 CPU 市場,在這裡,來自 Ampere Computing 和 AWS Graviton 的 Arm 基礎替代品已經建立了立足點,而 AMD 的 EPYC 和 Intel 的 Xeon 處理器仍然佔據著大部分已安裝容量。Vera 的區別主要依賴於 NVLink 的帶寬優勢及與 NVIDIA 的 GPU 軟件堆疊(包括 CUDA 和 TensorRT 推理引擎)的共同優化。

對於不使用 NVIDIA GPU 的工作負載,Vera 在架構上並未提供明顯的優勢。

功耗是一個實際考量。高帶寬內存和寬 NVLink 互連需要消耗大量電力,數據中心運營商在管理每機架的電力預算時,會將整體系統的 TDP 與吞吐量增益進行權衡。截至目前,NVIDIA 尚未公佈獨立第三方驗證的能效數據。

NVIDIA 確認 Vera CPU 現已開始交付,這意味著生產的硅片正在發送給客户,而不是停留在認證階段。早期的接收者可能是已經運行 NVIDIA GPU 集羣的超大規模雲服務提供商和 AI 基礎設施運營商,因為它們存在整合依賴。企業客户的更廣泛可用時間表尚未披露。對於評估下一代 AI 推理硬件的工程師而言,NVIDIA Grace Hopper 超級晶片架構提供了相關的背景,説明瞭 NVIDIA 在前幾代中如何進行 CPU-GPU 共同設計。

Vera 代的架構延伸了這一架構,採用了更新的核心設計和修訂的內存配置,儘管有關微架構的詳細規範仍然有限,超出 NVIDIA 已公開透露的信息。

項目規格
處理器Vera CPU
架構Arm 基礎
連接性NVLink
兼容 GPUBlackwell 代 GPU

📬 免費訂閱 TechRitual 科技精選

按「免費訂閱」即同意收到 TechRitual 嘅科技資訊及優惠。可隨時取消訂閱。

Henderson
Henderson

Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。