儘管 DeepSeek V4 Pro 相較前代有明顯進步,但最新基準測試顯示,它仍落後於領先者。該模型超越 V3.2,在 Artificial Analysis Intelligence Index 得分 52 分,低於 Moonshot AI 的 Kimi K2.6,本週發佈後即達 54 分。與美國封閉源碼系統的差距更為明顯,OpenAI 的 GPT-5.
5 得分 60 分,Anthropic 的 Claude Opus 及 Google 的 Gemini 3.1 Pro 均為 57 分。最新結果反映中國正努力縮減與美國 AI 能力的差距,同時面對國內激烈競爭及持續的運算限制壓力。
效能與硬體靈活性的平衡
V4 系統在接近頂尖效能的同時維持效率,備受矚目。它結合 100 萬 token 上下文窗口,並相容華為科技的 Ascend 950PR AI 晶片。布魯金斯學會的 Kyle Chan 表示,這種效能與硬體適應性的平衡顯示出實質進展,即便尚未超越頂尖競爭者,南華早報報導。實際而言,AI 模型的上下文窗口決定其單次處理資訊量。DeepSeek 先前旗艦系統支援至 128,000 tokens,新架構大幅擴展容量並提升效率。
SemiAnalysis 近期報告指出,DeepSeek 在 100 萬 token 上下文下實現約 90% 的 KV 快取使用量降低,此優化比 Google 上月發表的 TurboQuant 論文更具影響力,凸顯模型擴展至長上下文時的記憶體效率重要性。 發佈另一重點是與中國本土硬體生態的契合。V4 推出後不久,華為科技確認其 Ascend 晶片系列及超節點系統將全面支援模型的推理階段。
然而,訓練細節較不明朗。專家留意到 DeepSeek 未提及訓練時使用中國晶片,這在推動技術自給自足的背景下頗為顯著,尤其模型仍落後美國前沿系統。 從地緣政治角度,新模型未改變全球 AI 格局對美國主導的看法。外交關係協會的 Chris McGuire 表示差距依舊,估計美國領先約 7 個月。他指出訓練成本及基礎設施缺乏披露,暗示 V4 或依賴受限的 Nvidia Blackwell 晶片,引發出口管制下開發方式的疑問。
投資者對發佈反應溫和,不如 DeepSeek 先前 R1 模型引發震盪。V4 及華為硬體整合消息雖推升中國晶片股上週五上揚,但全球市場整體平淡。相對而言,R1 發佈令美國股市蒸發數千億美元,Nvidia 單日跌 17%。今次情緒逆轉,Nvidia 股價升 4.32%,顯示 V4 未帶來類似市場衝擊。即使知識基準表現更強,DeepSeek 最新模型的可靠性仍受關注。
以下為主要規格比較:
| 模型 | Artificial Analysis Intelligence Index | 上下文窗口 | 硬體相容 |
|---|---|---|---|
| DeepSeek V4 Pro | 52 | 1,000,000 tokens | Huawei Ascend 950PR |
| Moonshot AI Kimi K2.6 | 54 | – | – |
| OpenAI GPT-5.5 | 60 | – | – |
| Anthropic Claude Opus | 57 | – | – |
| Google Gemini 3.1 Pro | 57 | – | – |




