Google 發佈第八代 Tensor Processing Units,推出兩款專為模型訓練和推理設計的自訂 AI 晶片,以應對大規模 AI 運算需求激增。這些新處理器名為 TPU 8t 和 TPU 8i,在 Google Cloud Next 活動上公布,主要用於驅動 Google 的 AI Hypercomputer 平台,支持從前沿模型訓練到生產環境中 AI 代理的各種工作負載。
TPU 是 Google 內部加速器,多年來為 Gemini 等系統提供動力,公司現正將其擴展至尋求 Nvidia 主導 AI 基礎設施替代方案的客戶。Google 表示,這兩款晶片將於今年稍後正式推出。
兩款晶片分別優化訓練與推理
TPU 8t 專為大型 AI 模型訓練而優化。Google 指出,單一 superpod 可擴展至 9,600 枚晶片,提供 121 exaflops 運算效能,相較前一代 Ironwood,每個 pod 的運算效能提升近三倍。訓練系統還配備更快的儲存存取和升級網絡,以確保晶片持續忙碌而非等待資料。Google 稱 TPU 8t 的「goodput」超過 97%,即有效運算時間佔比,用以衡量避免故障或瓶頸導致的閒置時間。
這對巨型叢集尤為關鍵,因為延遲可能令先進 AI 系統的訓練時程延長數日。 TPU 8i 則針對推理階段,即訓練後模型回應提示、執行工具並驅動軟件代理。以下為其主要規格:
| 規格項目 | 細節 |
|---|---|
| 高頻寬記憶體 | 288 GB |
| 片上 SRAM | 384 MB |
| CPU | Google Axion Arm-based CPUs |
| 效能優勢 | 每美元效能提升 80%,相同成本下處理近兩倍工作負載 |
該晶片採用升級互聯頻寬,支持 Mixture of Experts (MoE) 模型架構,僅激活模型部分以降低成本並擴展效能。Google 表示,這反映 AI 基礎設施正從通用 GPU 轉向專用晶片,特別因 AI 代理興起,需要系統處理任務推理、工作流程及工具互動。在數據中心,兩款晶片每瓦效能比 Ironwood 高兩倍,並使用第四代液冷技術,支持更高運算密度同時控制功耗。
Google 透過自訂矽晶、網絡、軟件框架及雲服務組合,挑戰 Nvidia 在 AI 硬件的主導地位。兩款晶片支持 JAX、PyTorch、SGLang 和 vLLM 等框架,讓開發者無需大幅改寫軟件即可運行現有 AI 工作負載。




