美國 AI 領先中國 DeepSeek V4 Pro 基準測試落後 OpenAI GPT-5.5

儘管 DeepSeek V4 Pro 相較前代有明顯進步,但最新基準測試顯示,它仍落後於領先者。該模型超越 V3.2,在 Artificial Analysis Intelligence Index 得分 52 分,低於 Moonshot AI 的 Kimi K2.6,本週發佈後即達 54 分。與美國封閉源碼系統的差距更為明顯,OpenAI 的 GPT-5.

5 得分 60 分,Anthropic 的 Claude Opus 及 Google 的 Gemini 3.1 Pro 均為 57 分。最新結果反映中國正努力縮減與美國 AI 能力的差距,同時面對國內激烈競爭及持續的運算限制壓力。

效能與硬體靈活性的平衡

V4 系統在接近頂尖效能的同時維持效率,備受矚目。它結合 100 萬 token 上下文窗口,並相容華為科技的 Ascend 950PR AI 晶片。布魯金斯學會的 Kyle Chan 表示,這種效能與硬體適應性的平衡顯示出實質進展,即便尚未超越頂尖競爭者,南華早報報導。實際而言,AI 模型的上下文窗口決定其單次處理資訊量。DeepSeek 先前旗艦系統支援至 128,000 tokens,新架構大幅擴展容量並提升效率。

SemiAnalysis 近期報告指出,DeepSeek 在 100 萬 token 上下文下實現約 90% 的 KV 快取使用量降低,此優化比 Google 上月發表的 TurboQuant 論文更具影響力,凸顯模型擴展至長上下文時的記憶體效率重要性。 發佈另一重點是與中國本土硬體生態的契合。V4 推出後不久,華為科技確認其 Ascend 晶片系列及超節點系統將全面支援模型的推理階段。

然而,訓練細節較不明朗。專家留意到 DeepSeek 未提及訓練時使用中國晶片,這在推動技術自給自足的背景下頗為顯著,尤其模型仍落後美國前沿系統。 從地緣政治角度,新模型未改變全球 AI 格局對美國主導的看法。外交關係協會的 Chris McGuire 表示差距依舊,估計美國領先約 7 個月。他指出訓練成本及基礎設施缺乏披露,暗示 V4 或依賴受限的 Nvidia Blackwell 晶片,引發出口管制下開發方式的疑問。

投資者對發佈反應溫和,不如 DeepSeek 先前 R1 模型引發震盪。V4 及華為硬體整合消息雖推升中國晶片股上週五上揚,但全球市場整體平淡。相對而言,R1 發佈令美國股市蒸發數千億美元,Nvidia 單日跌 17%。今次情緒逆轉,Nvidia 股價升 4.32%,顯示 V4 未帶來類似市場衝擊。即使知識基準表現更強,DeepSeek 最新模型的可靠性仍受關注。

以下為主要規格比較:

模型Artificial Analysis Intelligence Index上下文窗口硬體相容
DeepSeek V4 Pro521,000,000 tokensHuawei Ascend 950PR
Moonshot AI Kimi K2.654
OpenAI GPT-5.560
Anthropic Claude Opus57
Google Gemini 3.1 Pro57
AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。