SuperCLUE 聯盟發佈 DeepSeek V4 系列中文大模型評測結果,DeepSeek-V4-Pro 憑藉綜合表現位居中國榜單第一,Flash 版本緊隨其後位列第二,國產開源模型再迎突破。本次評測涵蓋數學推理、科學推理、代碼生成、智能體任務規範、指令遵循、幻覺控制六大維度,Pro 版本得分 70.98 分,Flash 版本 68.82 分,兩項成績均大幅領先中國其他模型。
DeepSeek V4 系列規格比較
| 版本 | 綜合得分 | 數學推理提升 | 指令遵循提升 | 幻覺控制 | 定價(每百萬 Tokens) |
|---|---|---|---|---|---|
| DeepSeek-V4-Pro | 70.98 分 | 近 10 分 | 近 12 分 | 明顯優化 | 15 元人民幣,約 HK$16.35 |
| DeepSeek-V4-Flash | 68.82 分 | 大幅提升 | – | – | 1.25 元人民幣,約 HK$1.36 |
DeepSeek V4 系列採用全新注意力機制,全版本支援百萬級長上下文,同時降低算力與顯存需求,搭配國產晶片使用,整體效率更高。相較上一代 V3.2,兩個版本均實現全面提升。Pro 版本智能體能力提升逾 20 分,數學推理近 10 分,指令遵循近 12 分,幻覺控制亦有顯著改善。Flash 版本在保持高效推理同時,智能體與數學推理同樣大幅提升,性價比突出。
Pro 版本側重高性能,幻覺控制更穩,適合複雜任務與專業場景。Flash 版本速度更快、成本更低,API 價格僅 1.25 元人民幣約 HK$1.36 每百萬 Tokens,日用更划算。評測同時指出,模型與海外頂尖模型在代碼生成、複雜指令執行等方面仍有差距。整體而言,DeepSeek V4 憑藉均衡性能與親民成本,穩佔中國榜單首位,成為日常辦公、開發創作、長文處理的優質選擇。
AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們。




