DeepSeek-V4 發佈開源 Pro 版 Agent 任務排首位幻覺率上升

DeepSeek-V4 預覽版正式發佈並同步開源，被指在 Agent 能力、世界知識與推理能力三大維度達到國產及開源領先水平。DeepSeek-V4 分為 Pro 與 Flash 兩個版本，均支援百萬（1M）token 上下文長度。兩個版本均大幅降低對計算與顯存的需求，將每個標記的推理 FLOP 降低 73%，並將 KV 緩存顯存用量降低 90%。 4 月 24 日，全球最大 AI 模型應用程式編程介面聚合平台 OpenRouter 的數據顯示，V4-Flash 的調用量達 270 億 Toke

n，V4-Pro 為 47.9 億 Token，但未登上排行榜。

性能測試與排名表現

DeepSeek-V4 發佈後，主要評測平台進行了能力測試與排名。Artificial Analysis 對 DeepSeek-V4 進行了推理能力專項評測。結果顯示，V4-Pro 在人工分析智能指數中獲 52 分，較 V3.2 版本的 42 分實現 10 分躍升，成為僅次於 Kimi K2.6 的全球第二大開源推理模型。V4-Flash 得 47 分，性能弱於 V4-Pro，但超越 DeepSeek-V3.

2，綜合智能水平對標 Claude Sonnet 4.6（全功率版），介於頂尖閉源模型與主流中端模型之間。在智能體任務表現方面，V4-Pro 在真實場景智能體工作任務中，性能位居所有開源強大模型首位，得分 1554，超越 Kimi K2.6（1484）、GLM-5.1（1535）、GLM-5（1402）以及 MiniMax-M2.7（1514）。以下為 DeepSeek-V4 主要規格比較：

模型版本	上下文長度	推理 FLOP 降低	KV 緩存降低	人工分析智能指數
V4-Pro	1M token	73%	90%	52 分
V4-Flash	1M token	73%	90%	47 分

DeepSeek-V4 知識儲備升級，但幻覺生成率上升。V4-Pro 在全知識綜合評測指標（AA-Omniscience）中得 -10 分，較 V3.2 推理版提升 11 分，核心得益於知識回答準確率的顯著優化。V4-Flash 得 -23 分，整體水平與 V3.2 持平。相較 V3.2 的幻覺率（82%），V4 兩款模型的幻覺問題凸出：V4-Pro 幻覺率為 94%、V4-Flash 為 96%，意味著模型在未知問題場景下，傾向強行生成答案。

DeepSeek-V4 的運行成本低於頂級閉源模型，高於主流開源模型，較前代大幅上漲。完成全套人工分析智能指數評測，V4-Pro 的運行成本為 US$1071，約 HK$8350，不到 Claude Opus 4.7（US$4811，約 HK$37526）的四分之一；但對比同類開源模型仍偏高，高於 Kimi K2.6（US$948，約 HK$7394）、GLM-5.

1（US$544，約 HK$4243）、DeepSeek-V3.2（US$71，約 HK$554）、gpt-oss-120B（US$67，約 HK$523）。DeepSeek-V4-Flash 運行成本約 US$113，約 HK$881，成本優勢顯著。完成標準評測流程，V4-Pro 輸出 Token 消耗量達 1.9 億，屬本次評測中 Token 消耗最高的模型之一；V4-Flash 消耗進一步提升至 2.

4 億 Token。即使定價偏低，高額 Token 消耗仍是 V4-Pro 綜合使用成本高於其他開源模型的核心原因。在其他評測中，大模型競技場 Arena.ai 將 DeepSeek-V4-Pro 定性為「相較 DeepSeek-V3.2 的重大飛躍」，在其代碼競技場中位列開源模型第 3 位、綜合第 14 位。DeepSeek-V4-Pro 在智能體網頁開發任務中與 GPT-5.

4-high 及 Gemini-3.1-Pro 處於同一水平。在其文本競技場中，DeepSeek-V4-Pro 位列開源模型排名第 2、綜合第 14，與 Kimi-2.6 持平。DeepSeek-V4-Flash 位列開源模型排名第 10、綜合第 14。另一家評測方 Vals AI 表示，DeepSeek-V4 在其 Vibe Code Benchmark（氛圍代碼基準）中以「壓倒性優勢」拿下開源強大模型榜首，較上代 V3.

2 實現約 10 倍性能躍升，甚至擊敗了如 Gemini 3.1 Pro 這類頂尖閉源模型。DeepSeek-V4 也是唯一一個在 Vibe Code Benchmark 上突破 40% 的開源強大模型。相較 DeepSeek-V4 的能力，海外更關注 DeepSeek 與華為的合作。在 DeepSeek-V4 預覽版 API 價格資訊的最下方，官方特別標註指出：「受限於高端算力，目前 Pro 的服務吞吐量有限，預計下半年鯤鵬（Ascend）950 算節點批量上市後，Pro 的價格會大幅下調。

」DeepSeek 在技術報告中稱，V4 已在 NVIDIA GPU 與華為鯤鵬 NPUs 平台上驗證了精細粒度的 EP（專用程式）方案，相較於強大非融合基線，其在通用推理任務上可實現 1.50~1.73 倍的加速效果，而在對時延敏感的場景（如 RL 推理和高頻代理服務）中則可達到 1.96 倍的加速效果。而在 V4 發佈後，華為鯤鵬亦同步宣布「算節點全系列產品支援 DeepSeek-V4 系列模型」。

據悉，鯤鵬 950 透過融合 kernel 與多流並行技術降低 Attention 計算與存取開銷，大幅提升推理性能，結合多種量化算法，實現了高吞吐、低時延的 DeepSeek-V4 模型推理部署。對於 DeepSeek 此次與華為合作，市場研究機構 Omdia 半導體研究主管何昕表示：「這對中國人工智能產業而言意義重大。」他進一步指出：「華為鯤鵬晶片是中國自研水準最高、可取代英偉達的產品。

DeepSeek-V4 大模型適配搭載華為晶片，標誌著中國頂級大模型如今已能實現國產化落地運行。」高盛分析師 Christopher Moniz 點評稱，DeepSeek-V4 預覽版發佈後，GPU 與國產晶片替代響應走強。核心關注點之一是支援 V4 模型的晶片底層架構：包括模型訓練所用晶片，以及推理階段搭載的硬體設備。華為搭載鯤鵬 AI 處理器的全新一代人工智能計算叢集，可適配運行 DeepSeek-V4 模型。

這也意味著，中國自研 AI 硬體生態，正為 DeepSeek 提供持續迭代前進的算力支援。 DeepSeek 此次技術路線轉向，也印證了英偉達首席執行官黃仁勳此前言論：英偉達正面臨失去中國開發者生態的風險。本月上旬，黃仁勳在接受 Dwarkesh Patel 專訪時曾言：「如果 DeepSeek 先在華為平台上發佈，那對美國來說將是艱難的。」在黃仁勳看來，即便 DeepSeek 是一款開源模型，同樣可用於英偉達產品上，但如果 DeepSeek 專門針對華為算力進行優化，在高端算力資源受限等局勢下

，英偉達將處於不利。與 DeepSeek-R1 不同，DeepSeek-V4 並未引發美國科技股大跌。晨星高級股票分析師 Ivan Su 表示，DeepSeek-V4 很難複製推理模型 R1 初期的市場影響力，因為交易市場早已消化預期：中國人工智能技術已備競爭力，且使用成本更低。Ivan Su 還稱，DeepSeek 此次全新產品定位，將國產其他開源大模型直接劃入競爭產品行列。

布魯金斯學會研究員 Kyle Chan 表示，DeepSeek-V4 令人印象深刻，因為它是一個接近最先進水準的模型，還擁有高效的 100 萬 Token 上下文長度，並且可以在華為的新晶片上運行。DeepSeek-V4 沒有複製「DeepSeek-R1 時刻」，因為世界對中國 AI 能力的預期值已比以往高得多。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

DeepSeek-V4 發佈開源 Pro 版 Agent 任務排首位 幻覺率上升

性能測試與排名表現

推薦內容

關於我們

DeepSeek-V4 發佈開源 Pro 版 Agent 任務排首位幻覺率上升