DeepSeek 全新系列模型 DeepSeek-V4 預覽版本正式上線,並同步開源。該模型主打百萬字超長上下文能力(1M tokens),在 Agent 能力、世界知識及推理性能上,均實現國內與開源領域的領先水平。
DeepSeek-V4 Pro 與 Flash 版本規格比較
| 規格項目 | DeepSeek-V4-Pro | DeepSeek-V4-Flash |
|---|---|---|
| 性能對標 | 頂級閉源模型,如 Sonnet 4.5 及 Opus 4.6 | 經濟高效版本,推理能力接近 Pro |
| Agent 能力 | Agentic Coding 評測達開源最佳;內部使用優於 Sonnet 4.5 | 簡單任務與 Pro 相當,高難度任務有差距 |
| 世界知識 | 大幅領先開源模型,稍遜 Gemini-Pro-3.1 | 稍遜 Pro,但知識儲備仍具競爭力 |
| 數學 / STEM / 程式碼 | 超越所有公開開源模型,比肩頂級閉源 | 具高效推理,適合快速應用 |
| 注意力機制 | DSA2(融合 DSA 與 NSA) | DSA 稀疏注意力,token 維度壓縮 |
| MoE 技術 | 每層 384 專家,激活 6 個;Mega 内核融合 | 參數與激活更小,提供快捷 API |
DeepSeek-V4 Pro 版本性能可對標頂級閉源模型,其 Agent 能力較前代大幅提升,在 Agentic Coding 評測中達到開源最佳水準。官方指出,該模型已成為公司內部員工的 Agentic Coding 工具,反饋使用體驗優於 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式。在世界知識評測中,V4-Pro 大幅領先其他開源模型,僅稍遜 Gemini-Pro-3.
1;在數學、STEM 及競賽型程式碼評測中,更超越所有公開開源模型,成績比肩全球頂級閉源模型。 DeepSeek-V4-Flash 則為快捷高效的經濟選擇。雖然世界知識儲備稍遜 V4-Pro,但推理能力接近,且因模型參數及激活更小,能提供更快捷、經濟的 API 服務。在 Agent 評測中,V4-Flash 在簡單任務上與 Pro 相當,高難度任務仍有差距。
技術創新上,DeepSeek-V4 開創全新注意力機制,在 token 維度進行壓縮,結合 DSA 稀疏注意力(DeepSeek Sparse Attention),實現全球領先長上下文能力,並大幅降低計算及顯存需求。據技術規格,採用 DSA2 注意力機制,融合 DSA 與 NSA 稀疏技術;MoE 混合專家技術使用 Mega 内核融合,每層含 384 個專家,每次激活 6 個。
AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們。




