NVIDIA 預計於 2028 年推出 Feynman 架構 GPU 整合 LPU 提升 AI 推理性能

雖然 NVIDIA 目前在 AI 訓練領域無可匹敵,但面對日益增長的即時推理需求,NVIDIA 正籌劃一項足以改變行業格局的「秘密武器」。據 AGF 透露,NVIDIA 計劃在 2028 年推出的 Feynman(費曼)架構 GPU 中,整合來自 Groq 公司的 LPU(語言處理單元),以大幅提升 AI 推理性能。

新架構的特點

Feynman 架構將接替 Rubin 架構,採用台積電最先進的 A16(1.6nm)製程。為了突破半導體物理限制,NVIDIA 計劃利用台積電的 SoIC 混合鍵合技術,將專為推理加速設計的 LPU 單元直接堆疊在 GPU 之上。

這種設計類似於 AMD 的 3D V-Cache 技術,但 NVIDIA 堆疊的不是普通快取,而是專為推理加速設計的 LPU 單元。 設計的核心邏輯在於解決 SRAM 的微縮困境,在 1.6nm 這種極致工藝下,直接在主芯片集成大量 SRAM 成本極高且佔用空間。通過堆疊技術,NVIDIA 可以將運算核心留在主芯片,而將需要大量面積的 SRAM 獨立成另一層芯片堆疊上去。台積電的 A16 製程一大特色是支持背面供電技術,這項技術可以騰出芯片正面的空間,專供垂直信號連接,確保堆疊的 LPU 能以極低功耗進行高速數據交換。

結合 LPU 的「確定性」執行邏輯,未來的 NVIDIA GPU 在處理即時 AI 響應(如語音對話、實時翻譯)時,速度將實現質的飛躍。不過,這也存在兩大潛在挑戰,分別是散熱問題和 CUDA 兼容性難題。在運算密度極高的 GPU 再加蓋一層芯片,如何避免「熱當機」是工程團隊的頭號難題。同時 LPU 強調「確定性」執行順序,需要精確的內存配置,而 CUDA 生態則是基於硬件抽象化設計的,要讓這兩者完美協同,需要頂級的軟件優化。

Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。