美國 AI 領先中國 DeepSeek V4 Pro 基準測試落後 OpenAI GPT-5.5

儘管 DeepSeek V4 Pro 相較前代有明顯進步，但最新基準測試顯示，它仍落後於領先者。該模型超越 V3.2，在 Artificial Analysis Intelligence Index 得分 52 分，低於 Moonshot AI 的 Kimi K2.6，本週發佈後即達 54 分。與美國封閉源碼系統的差距更為明顯，OpenAI 的 GPT-5.5 得分 60 分，Anthropic 的 Claude Opus 及 Google 的 Gemini 3.1 Pro 均為 57 分。最新結果反映中國正努力縮減與美國 AI 能力的差距，同時面對國內激烈競爭及持續的運算限制壓力。

效能與硬體靈活性的平衡

V4 系統在接近頂尖效能的同時維持效率，備受矚目。它結合 100 萬 token 上下文窗口，並相容華為科技的 Ascend 950PR AI 晶片。布魯金斯學會的 Kyle Chan 表示，這種效能與硬體適應性的平衡顯示出實質進展，即便尚未超越頂尖競爭者，南華早報報導。實際而言，AI 模型的上下文窗口決定其單次處理資訊量。DeepSeek 先前旗艦系統支援至 128,000 tokens，新架構大幅擴展容量並提升效率。

SemiAnalysis 近期報告指出，DeepSeek 在 100 萬 token 上下文下實現約 90% 的 KV 快取使用量降低，此優化比 Google 上月發表的 TurboQuant 論文更具影響力，凸顯模型擴展至長上下文時的記憶體效率重要性。發佈另一重點是與中國本土硬體生態的契合。V4 推出後不久，華為科技確認其 Ascend 晶片系列及超節點系統將全面支援模型的推理階段。

然而，訓練細節較不明朗。專家留意到 DeepSeek 未提及訓練時使用中國晶片，這在推動技術自給自足的背景下頗為顯著，尤其模型仍落後美國前沿系統。從地緣政治角度，新模型未改變全球 AI 格局對美國主導的看法。外交關係協會的 Chris McGuire 表示差距依舊，估計美國領先約 7 個月。他指出訓練成本及基礎設施缺乏披露，暗示 V4 或依賴受限的 Nvidia Blackwell 晶片，引發出口管制下開發方式的疑問。

投資者對發佈反應溫和，不如 DeepSeek 先前 R1 模型引發震盪。V4 及華為硬體整合消息雖推升中國晶片股上週五上揚，但全球市場整體平淡。相對而言，R1 發佈令美國股市蒸發數千億美元，Nvidia 單日跌 17%。今次情緒逆轉，Nvidia 股價升 4.32%，顯示 V4 未帶來類似市場衝擊。即使知識基準表現更強，DeepSeek 最新模型的可靠性仍受關注。

以下為主要規格比較：

模型	Artificial Analysis Intelligence Index	上下文窗口	硬體相容
DeepSeek V4 Pro	52	1,000,000 tokens	Huawei Ascend 950PR
Moonshot AI Kimi K2.6	54	–	–
OpenAI GPT-5.5	60	–	–
Anthropic Claude Opus	57	–	–
Google Gemini 3.1 Pro	57	–	–

美國 AI 領先中國 DeepSeek V4 Pro 基準測試落後 OpenAI GPT-5.5

效能與硬體靈活性的平衡

Henderson

搜尋文章

效能與硬體靈活性的平衡

相關文章

Henderson

搜尋文章