DeepSeek V4 發佈 API Pro 及 Flash 版支援 100 萬字上下問文

萬眾期盼中,DeepSeek V4 終於發佈了!就在剛剛,被廣泛預期的 DeepSeek V4 預覽版正式登場。兩個版本——V4-Pro 和 V4-Flash,全系標配 1M(百萬字)上下文長度,同步開源模型權重和技術報告。五一前的這兩天,大模型又進入新一輪發佈潮。4 月 23 日中午,「天賦少年」奚駿雨交出加入阿里後的第一份模型答卷,阿里元宇宙 Hy3 預覽版亮相,2950 億參數的 MoE 架構,激活性參數 21B,推理效率提升 40%,輸入價格壓到 1.

2 元人民幣 / 百萬 tokens。今天淩晨,OpenAI 面向付費用戶上線 GPT-5.5 並公布 API 計費,主打 Agent 工作流和多步驟任務完成,上下文窗口拉到 100 萬 tokens,API 定價也水漲船高——輸入 5 美元、輸出 30 美元 / 百萬 tokens。

DeepSeek V4 的「實用主義」

表面上看,三家路徑各不相同:OpenAI 走高端閉源路線,持續高價天價;阿里把模型塞進自家生態,用性價比撬動規模化商用;DeepSeek 則延續開源傳統,同時把上下文長度推到一個新的普世世界點。同時,Agent 能力、長上下文、代碼與工具調用,這三個關鍵詞,在三家發佈的新模型裡反覆出現。它們能在同一個方向上加注:讓模型能處理更長的資訊,能在更複雜的任務鏈裡自主運作,能真正嵌入工作流程裡「幹活」。

DeepSeek 這次發佈,把百萬字上下文從「高端選配」變成「基礎標配」。在此之前,1M 級別的上下文長度,更多出現在頭部閉源模型的高端版本裡,高昂的調用成本,讓大多數開發者和中小企業望而卻步。而 DeepSeek 的做法十分明確:V4-Pro 和 V4-Flash 兩個版本全系標配 1M 上下文長度,前者鎖定極致性能,後者提供普經經濟之選,完整覆蓋不同需求層級用戶。

這種「無差別下放核心能力」的策略,本質上是在徹底降低長文處理能力的行業獲取門檻。 Flash 版本主打極致低延遲與高性價比,是 DeepSeek 面向輕量化高頻場景給出的核心方案。借力 13B 的激活性參數、全新的 token 壓縮注意力機制與 DSA 稀疏注意力架構優化,它在保持續近 Pro 版本核心推理能力的同時,實現了極快的響應速度,對於即時對話交互、函數調用流水線,乃至少有所有響應速度敏感的輕量化場景而言,這一特性能帶來體驗上的本質提升。

更關鍵的是所有競爭力的成本結構。 | 版本 | 緩存命中輸入 (元人民幣 / 百萬 tokens) | 緩存未命中輸入 (元人民幣 / 百萬 tokens) | 輸出 (元人民幣 / 百萬 tokens) | |——|————————————-|—————————————|—————————–|

| V4-Flash | 0.2 元人民幣,約 HK$0.22 | 1 元人民幣,約 HK$1.09 | 2 元人民幣,約 HK$2.18 | | V4-Pro | 1 元人民幣,約 HK$1.09 | 12 元人民幣,約 HK$13.08 | 24 元人民幣,約 HK$26.16 | 如斯親民的定價,配全系標配的 1M 上下文能力,使得「單次調用成本」不再是工程設計中的核心約束——開發者可以優先考慮產品體驗與架構設計,而不用反覆在調用次數與費用之間做糾結。

Flash 解決的是「用得起、用得快」的普經需求,V4-Pro 則在回應另一個核心問題:開源大模型的性能邊界,究竟還能被推到哪裡。最直觀的性能提升,依舊圍繞長上下文展開。DeepSeek 將模型上下文長度從上一代 V3.2 的 128K,直接拉升至 1M(一百萬 token),配合底層架構的創新,在大幅降低長上下文計算與顯存需求的同时,保持續全上下文窗口的性能無損。

在這一規模下,開發者可以直接輸入完整代碼庫、長行業文檔、多輪項目文件乃至百萬字級別的完整筆記,進行端到端處理,不需額外搭建複雜的檢索增強生成(RAG)系統,大幅簡化了長文處理的技術鏈路。在底層架構上,Pro 版本採用總參數 1.6T、激活性參數 49B 的 MoE 架構,預訓練數據量達 33T,是對 DeepSeek 垂直專家的全棧深化。官方評測數據顯示,其在數學、STEM、競賽級代碼等核心推理評測中,超越了當前所有已公開評測的開源模型,達到了比肩世界頂級閉源模型的水準。

在 Agent 能力上,其交互質量已接近 Claude Opus 4.6 非思考模式,全量使用反超於 Anthropic Sonnet 4.5,成為了 DeepSeek 全體員工的主力 Agentic Coding 工具。功能層面,V4 全系兩個版本均同時支持非思考模式與思考模式,開發者可透過 reasoning_effort 參數自定義思考強度,同時全量支持 Json Output、Tool Calls、對話前紀錄寫入能力。

定價方面,Pro 版本同樣延續了高性價比路線,官方定價為:緩存命中輸入 1 元人民幣 / 百萬 tokens,緩存未命中輸入 12 元人民幣 / 百萬 tokens,輸出 24 元人民幣 / 百萬 tokens,顯著低於海外同級別頭部閉源模型。 API 接入也做到了極致低門檻,開發者無需修改原有 base_url,只需將 model 參數替換為對應版本名稱,即可完成接入,同時兼容 OpenAI ChatCompletions 與 Anthropic 兩種接口格式。

這種「能力上探 + 成本下探」的組合拳,讓頂級大模型能力不再是少數廠商的專屬資源。當行業逐漸脫離參數軍備競賽的怪圈,DeepSeek 用全系標配百萬上下文、全鏈條開源開放的選擇,給大模型的普及化,給出了一個全新的範本。 DeepSeek V4 針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 產品做了專項適配和優化,在代碼任務、文檔生成等實戰場景中表現均有提升。

模型的價值最終要在真實的開發和工作流程裡被檢驗。 DeepSeek 延續開源路線,並直接全量開放 API 調用。目前,DeepSeek-V4 的模型權重已同步在 Hugging Face、ModelScope 平臺開放下載,配套的技術報告亦一併公開,支持開發者進行本地部署與二次開發。與部分廠商「開源殘次版、閉源完整版」的行業慣例不同,這次開源的兩個版本,完整保留了與官方雲端 API 一致的全量能力——包括非思考 / 思考雙模式、1M 長上下文無損處理、Agent 專項優化與全量工具調用能力,無任

何功能殘缺。 這意味著,無論是中小創業者、個人開發者,還是科研機構,都能零門檻獲取到百萬上下文、頂級推理與 Agent 能力的大模型底座,不再為高端模型能力支付高額的閉源接口費用。為了進一步降低落地門檻,DeepSeek 同步開源了模型微調、量化、推理加速的全流程工具鏈,兼容 vLLM、TGI 等主流推理框架,以及 LangChain、LlamaIndex 等主流 Agent 框架的 Day 0 原生適配,同時開放了國產算力平臺的全棧部署方案,讓開發者在不同硬件環境下都能快速落地應用。

與此同時,DeepSeek 也給出了全新的模型迭代過渡方案:舊有的 API 接口模型名 deepseek-chat 與 deepseek-reasoner,將於三個月後(2026 年 7 月 24 日)停止使用。目前階段,這兩個模型名分別指向 deepseek-v4-flash 的非思考模式與思考模式,給開發者留出了足夠的平滑遷移時間。 把這兩天的發佈連起來看,一個趨勢很明顯:各家都在加速 Agent 能力。

過往兩年,資本和資源市場對大模型的關注,很大地度上聚焦在「聰明程度」,但現在已經轉向了「說更能穩定地把事做好」。GPT-5.5 的發佈重點不在於多模態理解又提升了多少,而是它在 Agent 編程、計算機使用、知識工作者等場景中的持續執行能力。阿里元宇宙 Hy3 的核心賣點也在於它在現實世界中的「行動能力」。DeepSeek V4 則直接把 Agent 能力和長上下文處理做為主打,目標明確指向實做工作負載。

這種轉變的背後,是整個行業正在走向「模型效用」的競爭。現在,用戶和企業客戶越來越不關心模型在某項評測裡排第幾,他們關心的是模型以及產品到底能幫自己幹好多少活:這個模型能不能幫我寫代碼、能不能處理複雜文檔、能不能在多步驟任務裡不出錯、能不能以合理的成本起量來。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。