前幾天,中國市場的人工智能(AI)技術迎來了一波爆發,智譜 GLM-5、Minimax 2.5 及 DeepSeek 在同一天發佈了新的大模型,當中 DeepSeek 的自然語言處理模型引起了廣泛關注。根據之前的報導,這次更新主要是提升了上下文能力,達到了 1M,而之前的 DeepSeek V3 系列則僅有 128K,這顯示出相對於前代 V3 系列的大模型提升了 7 倍。
今晚 DeepSeek 在其官方群組中正式確認了這一點,表示網頁及 APP 版本正在測試新的長文本模型結構,支持 1M 的上下文能力。
同時,DeepSeek 也強調其 API 服務仍然保持不變,依然是 V3.2 系列大模型,只支持 128K 的上下文。從 DeepSeek 的介紹來看,這次的新模型依然是文本模型,主要提升在於上下文能力,這在許多領域中都非常重要,因為在長對話中,若上下文不夠,模型會很容易忘記之前的內容。
儘管網上已有許多實測顯示這次的 DeepSeek 大模型在編程及輸出速度等方面有顯著提升,但相比於之前的期待,這次的更新難免讓人感到失望。這次的大模型顯然不是 V4,更可能是 V4 Lite,因為據悉其參數量僅有 2000 億,遠低於 V3 系列的 6700 億,因此部分能力比 V3 還要稍遜也是正常。
推測這個模型是 V4 Lite,DeepSeek 未來發佈的 V4 大模型也不太可能只有一款,而是會有不同版本,每個系列有不同的方向和設計,現在的這個 V4 Lite 僅是試水,因此提升的內容不多。此外,DeepSeek 官方也沒有詳細說明其技術架構,所有信息仍需後續釋放。
傳聞中的 DeepSeek V4 完整版預計擁有 1.5 萬億參數,這比 V3 系列翻倍還多,並且會使用 DeepSeek 之前研究的 Engram、mHC 等新技術,性能全面提升的同時成本還會降低,這樣的期待值仍然非常高。




