DeepSeek V4 發佈 API　Pro 及 Flash 版支援 100 萬字上下問文

萬眾期盼中，DeepSeek V4 終於發佈了！就在剛剛，被廣泛預期的 DeepSeek V4 預覽版正式登場。兩個版本——V4-Pro 和 V4-Flash，全系標配 1M（百萬字）上下文長度，同步開源模型權重和技術報告。五一前的這兩天，大模型又進入新一輪發佈潮。4 月 23 日中午，「天賦少年」奚駿雨交出加入阿里後的第一份模型答卷，阿里元宇宙 Hy3 預覽版亮相，2950 億參數的 MoE 架構，激活性參數 21B，推理效率提升 40%，輸入價格壓到 1.

2 元人民幣 / 百萬 tokens。今天淩晨，OpenAI 面向付費用戶上線 GPT-5.5 並公布 API 計費，主打 Agent 工作流和多步驟任務完成，上下文窗口拉到 100 萬 tokens，API 定價也水漲船高——輸入 5 美元、輸出 30 美元 / 百萬 tokens。

DeepSeek V4 的「實用主義」

表面上看，三家路徑各不相同：OpenAI 走高端閉源路線，持續高價天價；阿里把模型塞進自家生態，用性價比撬動規模化商用；DeepSeek 則延續開源傳統，同時把上下文長度推到一個新的普世世界點。同時，Agent 能力、長上下文、代碼與工具調用，這三個關鍵詞，在三家發佈的新模型裡反覆出現。它們能在同一個方向上加注：讓模型能處理更長的資訊，能在更複雜的任務鏈裡自主運作，能真正嵌入工作流程裡「幹活」。

DeepSeek 這次發佈，把百萬字上下文從「高端選配」變成「基礎標配」。在此之前，1M 級別的上下文長度，更多出現在頭部閉源模型的高端版本裡，高昂的調用成本，讓大多數開發者和中小企業望而卻步。而 DeepSeek 的做法十分明確：V4-Pro 和 V4-Flash 兩個版本全系標配 1M 上下文長度，前者鎖定極致性能，後者提供普經經濟之選，完整覆蓋不同需求層級用戶。

這種「無差別下放核心能力」的策略，本質上是在徹底降低長文處理能力的行業獲取門檻。 Flash 版本主打極致低延遲與高性價比，是 DeepSeek 面向輕量化高頻場景給出的核心方案。借力 13B 的激活性參數、全新的 token 壓縮注意力機制與 DSA 稀疏注意力架構優化，它在保持續近 Pro 版本核心推理能力的同時，實現了極快的響應速度，對於即時對話交互、函數調用流水線，乃至少有所有響應速度敏感的輕量化場景而言，這一特性能帶來體驗上的本質提升。

更關鍵的是所有競爭力的成本結構。 | 版本 | 緩存命中輸入 (元人民幣 / 百萬 tokens) | 緩存未命中輸入 (元人民幣 / 百萬 tokens) | 輸出 (元人民幣 / 百萬 tokens) | |——|————————————-|—————————————|—————————–|

Flash 解決的是「用得起、用得快」的普經需求，V4-Pro 則在回應另一個核心問題：開源大模型的性能邊界，究竟還能被推到哪裡。最直觀的性能提升，依舊圍繞長上下文展開。DeepSeek 將模型上下文長度從上一代 V3.2 的 128K，直接拉升至 1M（一百萬 token），配合底層架構的創新，在大幅降低長上下文計算與顯存需求的同时，保持續全上下文窗口的性能無損。

在這一規模下，開發者可以直接輸入完整代碼庫、長行業文檔、多輪項目文件乃至百萬字級別的完整筆記，進行端到端處理，不需額外搭建複雜的檢索增強生成（RAG）系統，大幅簡化了長文處理的技術鏈路。在底層架構上，Pro 版本採用總參數 1.6T、激活性參數 49B 的 MoE 架構，預訓練數據量達 33T，是對 DeepSeek 垂直專家的全棧深化。官方評測數據顯示，其在數學、STEM、競賽級代碼等核心推理評測中，超越了當前所有已公開評測的開源模型，達到了比肩世界頂級閉源模型的水準。

在 Agent 能力上，其交互質量已接近 Claude Opus 4.6 非思考模式，全量使用反超於 Anthropic Sonnet 4.5，成為了 DeepSeek 全體員工的主力 Agentic Coding 工具。功能層面，V4 全系兩個版本均同時支持非思考模式與思考模式，開發者可透過 reasoning_effort 參數自定義思考強度，同時全量支持 Json Output、Tool Calls、對話前紀錄寫入能力。

定價方面，Pro 版本同樣延續了高性價比路線，官方定價為：緩存命中輸入 1 元人民幣 / 百萬 tokens，緩存未命中輸入 12 元人民幣 / 百萬 tokens，輸出 24 元人民幣 / 百萬 tokens，顯著低於海外同級別頭部閉源模型。 API 接入也做到了極致低門檻，開發者無需修改原有 base_url，只需將 model 參數替換為對應版本名稱，即可完成接入，同時兼容 OpenAI ChatCompletions 與 Anthropic 兩種接口格式。

這種「能力上探 + 成本下探」的組合拳，讓頂級大模型能力不再是少數廠商的專屬資源。當行業逐漸脫離參數軍備競賽的怪圈，DeepSeek 用全系標配百萬上下文、全鏈條開源開放的選擇，給大模型的普及化，給出了一個全新的範本。 DeepSeek V4 針對 Claude Code、OpenClaw、OpenCode、CodeBuddy 等主流 Agent 產品做了專項適配和優化，在代碼任務、文檔生成等實戰場景中表現均有提升。

模型的價值最終要在真實的開發和工作流程裡被檢驗。 DeepSeek 延續開源路線，並直接全量開放 API 調用。目前，DeepSeek-V4 的模型權重已同步在 Hugging Face、ModelScope 平臺開放下載，配套的技術報告亦一併公開，支持開發者進行本地部署與二次開發。與部分廠商「開源殘次版、閉源完整版」的行業慣例不同，這次開源的兩個版本，完整保留了與官方雲端 API 一致的全量能力——包括非思考 / 思考雙模式、1M 長上下文無損處理、Agent 專項優化與全量工具調用能力，無任

何功能殘缺。這意味著，無論是中小創業者、個人開發者，還是科研機構，都能零門檻獲取到百萬上下文、頂級推理與 Agent 能力的大模型底座，不再為高端模型能力支付高額的閉源接口費用。為了進一步降低落地門檻，DeepSeek 同步開源了模型微調、量化、推理加速的全流程工具鏈，兼容 vLLM、TGI 等主流推理框架，以及 LangChain、LlamaIndex 等主流 Agent 框架的 Day 0 原生適配，同時開放了國產算力平臺的全棧部署方案，讓開發者在不同硬件環境下都能快速落地應用。

與此同時，DeepSeek 也給出了全新的模型迭代過渡方案：舊有的 API 接口模型名 deepseek-chat 與 deepseek-reasoner，將於三個月後（2026 年 7 月 24 日）停止使用。目前階段，這兩個模型名分別指向 deepseek-v4-flash 的非思考模式與思考模式，給開發者留出了足夠的平滑遷移時間。把這兩天的發佈連起來看，一個趨勢很明顯：各家都在加速 Agent 能力。

過往兩年，資本和資源市場對大模型的關注，很大地度上聚焦在「聰明程度」，但現在已經轉向了「說更能穩定地把事做好」。GPT-5.5 的發佈重點不在於多模態理解又提升了多少，而是它在 Agent 編程、計算機使用、知識工作者等場景中的持續執行能力。阿里元宇宙 Hy3 的核心賣點也在於它在現實世界中的「行動能力」。DeepSeek V4 則直接把 Agent 能力和長上下文處理做為主打，目標明確指向實做工作負載。

這種轉變的背後，是整個行業正在走向「模型效用」的競爭。現在，用戶和企業客戶越來越不關心模型在某項評測裡排第幾，他們關心的是模型以及產品到底能幫自己幹好多少活：這個模型能不能幫我寫代碼、能不能處理複雜文檔、能不能在多步驟任務裡不出錯、能不能以合理的成本起量來。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

DeepSeek V4 發佈 API Pro 及 Flash 版支援 100 萬字上下問文

DeepSeek V4 的「實用主義」

推薦內容

關於我們

DeepSeek V4 發佈 API　Pro 及 Flash 版支援 100 萬字上下問文