xAI 擁約 55 萬塊 NVIDIA H100 與 H200 GPU,實際算力利用率僅有 11%,這一巨大反差讓Elon Musk顏下 xAI 近期推向爆炸論風口浪尖,也引發業界對其算力利用效率的廣泛質疑。據外媒《The Information》取得 xAI 內部備忘錄顯示,xAI 公司總裁 Michael Nicolls 向團隊坦言,目前公司模型訓練算力利用率(MFU)約為 11%。
這一數字背後的含義十分直觀:理論上可輸出 100 份訓練算力的硬件,實際只能產出 11 份,Nicolls 在備忘錄中直白評價其「低得離譜」,並明確為團隊設定目標——未來幾個月內將這一利用率拉升至 50%。 據悉,xAI 目前擁有約 55 萬塊 NVIDIA GPU,涵蓋 H100 與 H200 系列。儘管這些 GPU 比最新的 Blackwell 產品落後了一個世代,但如斯龐大的硬件部署規模,仍給市場留下深刻印象。
需要指出的是,11% 這個數字,並非指 89% 的 GPU 在完全閒置,而是衡量有效訓練吞吐量與理論峰值算力比率的嚴苛指標。與行業標準相比,xAI 的表現差距尤為明顯。目前,生產級大模型訓練的 MFU 通常維持在 35% 至 45% 之間,其中 Meta 與 Google 憑藉長期積累的深厚軟件堆疊,其 GPU 利用率分別可達約 43% 與 46%;即便在以「低效」著稱的 GPT-3 訓練時期,MFU 也能穩定在 21%-26% 之間。
反觀 xAI 的 11%,不僅遠低於當前行業主流水準,甚至不及其 AI 算力發展史上的「古早」特別時期。 值得一提的是,擁有頂級算力卻難以發揮價值,xAI 症結不在硬件,而在軟件短板。據悉,xAI 一直接納 NVIDIA 標準部署方案,但軟件堆疊、並行策略與模型工程優化,遠遠跟不上硬件激進擴展速度。
硬件優勢難掩軟件瓶頸
從整體來看,HBM 顯存讀取速度遠遜計算核心,導致核心大量時間空轉等候數據;網絡瓶頸中的任何一環瓶頸,在數萬卡的同步要求下,都會被放大。此外,Lambda 等機構分析指出,顯存壓力、過度的激活性重計算與大量並行帶來的跨 GPU 通訊開銷等,都是拖累 MFU 的系統性因素。 值得注意的,是 xAI 基建擴張堪稱行業奇蹟,其 Colossus 叢集僅 122 天建成,GPU 規模短時間極速擴容,過快的硬件節奏,也放大了軟件優化滯後的執掌短板。




