DeepSeek-V4 預覽版上線並開源　具百萬字長上下文能力對標頂級閉源模型

DeepSeek 全新系列模型 DeepSeek-V4 預覽版本正式上線，並同步開源。該模型主打百萬字超長上下文能力（1M tokens），在 Agent 能力、世界知識及推理性能上，均實現國內與開源領域的領先水平。

DeepSeek-V4 Pro 與 Flash 版本規格比較

規格項目	DeepSeek-V4-Pro	DeepSeek-V4-Flash
性能對標	頂級閉源模型，如 Sonnet 4.5 及 Opus 4.6	經濟高效版本，推理能力接近 Pro
Agent 能力	Agentic Coding 評測達開源最佳；內部使用優於 Sonnet 4.5	簡單任務與 Pro 相當，高難度任務有差距
世界知識	大幅領先開源模型，稍遜 Gemini-Pro-3.1	稍遜 Pro，但知識儲備仍具競爭力
數學 / STEM / 程式碼	超越所有公開開源模型，比肩頂級閉源	具高效推理，適合快速應用
注意力機制	DSA2（融合 DSA 與 NSA）	DSA 稀疏注意力，token 維度壓縮
MoE 技術	每層 384 專家，激活 6 個；Mega 内核融合	參數與激活更小，提供快捷 API

DeepSeek-V4 Pro 版本性能可對標頂級閉源模型，其 Agent 能力較前代大幅提升，在 Agentic Coding 評測中達到開源最佳水準。官方指出，該模型已成為公司內部員工的 Agentic Coding 工具，反饋使用體驗優於 Sonnet 4.5，交付質量接近 Opus 4.6 非思考模式。在世界知識評測中，V4-Pro 大幅領先其他開源模型，僅稍遜 Gemini-Pro-3.1；在數學、STEM 及競賽型程式碼評測中，更超越所有公開開源模型，成績比肩全球頂級閉源模型。 DeepSeek-V4-Flash 則為快捷高效的經濟選擇。雖然世界知識儲備稍遜 V4-Pro，但推理能力接近，且因模型參數及激活更小，能提供更快捷、經濟的 API 服務。在 Agent 評測中，V4-Flash 在簡單任務上與 Pro 相當，高難度任務仍有差距。

技術創新上，DeepSeek-V4 開創全新注意力機制，在 token 維度進行壓縮，結合 DSA 稀疏注意力（DeepSeek Sparse Attention），實現全球領先長上下文能力，並大幅降低計算及顯存需求。據技術規格，採用 DSA2 注意力機制，融合 DSA 與 NSA 稀疏技術；MoE 混合專家技術使用 Mega 内核融合，每層含 384 個專家，每次激活 6 個。

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

DeepSeek-V4 預覽版上線並開源　具百萬字長上下文能力對標頂級閉源模型

DeepSeek-V4 Pro 與 Flash 版本規格比較

Henderson

搜尋文章

DeepSeek-V4 Pro 與 Flash 版本規格比較

相關文章

Henderson

搜尋文章