DeepSeek-V4 預覽版正式發佈並同步開源,被指在 Agent 能力、世界知識與推理能力三大維度達到國產及開源領先水平。DeepSeek-V4 分為 Pro 與 Flash 兩個版本,均支援百萬(1M)token 上下文長度。兩個版本均大幅降低對計算與顯存的需求,將每個標記的推理 FLOP 降低 73%,並將 KV 緩存顯存用量降低 90%。 4 月 24 日,全球最大 AI 模型應用程式編程介面聚合平台 OpenRouter 的數據顯示,V4-Flash 的調用量達 270 億 Toke
n,V4-Pro 為 47.9 億 Token,但未登上排行榜。
性能測試與排名表現
DeepSeek-V4 發佈後,主要評測平台進行了能力測試與排名。Artificial Analysis 對 DeepSeek-V4 進行了推理能力專項評測。結果顯示,V4-Pro 在人工分析智能指數中獲 52 分,較 V3.2 版本的 42 分實現 10 分躍升,成為僅次於 Kimi K2.6 的全球第二大開源推理模型。V4-Flash 得 47 分,性能弱於 V4-Pro,但超越 DeepSeek-V3.
2,綜合智能水平對標 Claude Sonnet 4.6(全功率版),介於頂尖閉源模型與主流中端模型之間。 在智能體任務表現方面,V4-Pro 在真實場景智能體工作任務中,性能位居所有開源強大模型首位,得分 1554,超越 Kimi K2.6(1484)、GLM-5.1(1535)、GLM-5(1402)以及 MiniMax-M2.7(1514)。 以下為 DeepSeek-V4 主要規格比較:
| 模型版本 | 上下文長度 | 推理 FLOP 降低 | KV 緩存降低 | 人工分析智能指數 |
|---|---|---|---|---|
| V4-Pro | 1M token | 73% | 90% | 52 分 |
| V4-Flash | 1M token | 73% | 90% | 47 分 |
DeepSeek-V4 知識儲備升級,但幻覺生成率上升。V4-Pro 在全知識綜合評測指標(AA-Omniscience)中得 -10 分,較 V3.2 推理版提升 11 分,核心得益於知識回答準確率的顯著優化。V4-Flash 得 -23 分,整體水平與 V3.2 持平。相較 V3.2 的幻覺率(82%),V4 兩款模型的幻覺問題凸出:V4-Pro 幻覺率為 94%、V4-Flash 為 96%,意味著模型在未知問題場景下,傾向強行生成答案。
DeepSeek-V4 的運行成本低於頂級閉源模型,高於主流開源模型,較前代大幅上漲。完成全套人工分析智能指數評測,V4-Pro 的運行成本為 US$1071,約 HK$8350,不到 Claude Opus 4.7(US$4811,約 HK$37526)的四分之一;但對比同類開源模型仍偏高,高於 Kimi K2.6(US$948,約 HK$7394)、GLM-5.
1(US$544,約 HK$4243)、DeepSeek-V3.2(US$71,約 HK$554)、gpt-oss-120B(US$67,約 HK$523)。DeepSeek-V4-Flash 運行成本約 US$113,約 HK$881,成本優勢顯著。 完成標準評測流程,V4-Pro 輸出 Token 消耗量達 1.9 億,屬本次評測中 Token 消耗最高的模型之一;V4-Flash 消耗進一步提升至 2.
4 億 Token。即使定價偏低,高額 Token 消耗仍是 V4-Pro 綜合使用成本高於其他開源模型的核心原因。 在其他評測中,大模型競技場 Arena.ai 將 DeepSeek-V4-Pro 定性為「相較 DeepSeek-V3.2 的重大飛躍」,在其代碼競技場中位列開源模型第 3 位、綜合第 14 位。DeepSeek-V4-Pro 在智能體網頁開發任務中與 GPT-5.
4-high 及 Gemini-3.1-Pro 處於同一水平。在其文本競技場中,DeepSeek-V4-Pro 位列開源模型排名第 2、綜合第 14,與 Kimi-2.6 持平。DeepSeek-V4-Flash 位列開源模型排名第 10、綜合第 14。 另一家評測方 Vals AI 表示,DeepSeek-V4 在其 Vibe Code Benchmark(氛圍代碼基準)中以「壓倒性優勢」拿下開源強大模型榜首,較上代 V3.
2 實現約 10 倍性能躍升,甚至擊敗了如 Gemini 3.1 Pro 這類頂尖閉源模型。DeepSeek-V4 也是唯一一個在 Vibe Code Benchmark 上突破 40% 的開源強大模型。 相較 DeepSeek-V4 的能力,海外更關注 DeepSeek 與華為的合作。在 DeepSeek-V4 預覽版 API 價格資訊的最下方,官方特別標註指出:「受限於高端算力,目前 Pro 的服務吞吐量有限,預計下半年鯤鵬(Ascend)950 算節點批量上市後,Pro 的價格會大幅下調。
」DeepSeek 在技術報告中稱,V4 已在 NVIDIA GPU 與華為鯤鵬 NPUs 平台上驗證了精細粒度的 EP(專用程式)方案,相較於強大非融合基線,其在通用推理任務上可實現 1.50~1.73 倍的加速效果,而在對時延敏感的場景(如 RL 推理和高頻代理服務)中則可達到 1.96 倍的加速效果。 而在 V4 發佈後,華為鯤鵬亦同步宣布「算節點全系列產品支援 DeepSeek-V4 系列模型」。
據悉,鯤鵬 950 透過融合 kernel 與多流並行技術降低 Attention 計算與存取開銷,大幅提升推理性能,結合多種量化算法,實現了高吞吐、低時延的 DeepSeek-V4 模型推理部署。 對於 DeepSeek 此次與華為合作,市場研究機構 Omdia 半導體研究主管何昕表示:「這對中國人工智能產業而言意義重大。」他進一步指出:「華為鯤鵬晶片是中國自研水準最高、可取代英偉達的產品。
DeepSeek-V4 大模型適配搭載華為晶片,標誌著中國頂級大模型如今已能實現國產化落地運行。」 高盛分析師 Christopher Moniz 點評稱,DeepSeek-V4 預覽版發佈後,GPU 與國產晶片替代響應走強。核心關注點之一是支援 V4 模型的晶片底層架構:包括模型訓練所用晶片,以及推理階段搭載的硬體設備。華為搭載鯤鵬 AI 處理器的全新一代人工智能計算叢集,可適配運行 DeepSeek-V4 模型。
這也意味著,中國自研 AI 硬體生態,正為 DeepSeek 提供持續迭代前進的算力支援。 DeepSeek 此次技術路線轉向,也印證了英偉達首席執行官黃仁勳此前言論:英偉達正面臨失去中國開發者生態的風險。本月上旬,黃仁勳在接受 Dwarkesh Patel 專訪時曾言:「如果 DeepSeek 先在華為平台上發佈,那對美國來說將是艱難的。」在黃仁勳看來,即便 DeepSeek 是一款開源模型,同樣可用於英偉達產品上,但如果 DeepSeek 專門針對華為算力進行優化,在高端算力資源受限等局勢下
,英偉達將處於不利。 與 DeepSeek-R1 不同,DeepSeek-V4 並未引發美國科技股大跌。晨星高級股票分析師 Ivan Su 表示,DeepSeek-V4 很難複製推理模型 R1 初期的市場影響力,因為交易市場早已消化預期:中國人工智能技術已備競爭力,且使用成本更低。Ivan Su 還稱,DeepSeek 此次全新產品定位,將國產其他開源大模型直接劃入競爭產品行列。
布魯金斯學會研究員 Kyle Chan 表示,DeepSeek-V4 令人印象深刻,因為它是一個接近最先進水準的模型,還擁有高效的 100 萬 Token 上下文長度,並且可以在華為的新晶片上運行。DeepSeek-V4 沒有複製「DeepSeek-R1 時刻」,因為世界對中國 AI 能力的預期值已比以往高得多。




