DeepSeek 發佈新論文 揭示 mHC 技術或已完成 V4 模型訓練

DeepSeek 於 2026 年元旦假期發佈了一篇名為「流形約束超連接」(mHC)的新論文,該文在 AI 研究界引起了廣泛的討論。這篇論文闡述了 mHC 技術,旨在解決傳統 HC(Hyper-Connections)技術在訓練過程中出現的穩定性問題。

mHC 技術是基於字節公司何凱明於 2016 年提出的殘差連接技術的延伸。這項技術在過去十年間已成為 AI 大模型研究的重要突破。業界在 2024 年引入了 HC 概念,但在訓練過程中,HC 的不穩定性問題逐漸顯現,尤其在訓練步數累計至約 1200 步時,損失值激增,放大倍數達到 3000,導致訓練過程崩潰。

DeepSeek 在論文中指出,他們的 mHC 技術能夠在保持總量不變的情況下,將放大倍數理論上控制在 1,實際上可達到約 1.6,這樣大大降低了訓練過程中的不穩定性。根據測試結果,mHC 在 27B 參數模型的訓練中,訓練時間僅增加 6.7%,但複雜推理任務的準確率從 43.8% 提升至 51.0%,閱讀理解任務的準確率從 47.0% 提升至 53.9%。

用更通俗的方式來說,殘差連接就像是一條 AI 大模型的新型高速公路,而 HC 技術則是增加了車道數,但車速過快容易失控,DeepSeek 的 mHC 則相當於在這條高速公路上設置了紅綠燈,確保在高速行駛的同時不會失控。

更值得注意的是,DeepSeek 在論文中提到,mHC 技術的研究已經通過內部的大規模實驗進一步證實,這暗示著 DeepSeek 已經完成了新一代基座大模型 DeepSeek V4 的訓練。雖然這一消息本身並不新鮮,但目前最受關注的是 DeepSeek V4 會在何時發佈。根據去年 DeepSeek R1 的時間節點,DeepSeek V4 可能會在農曆新年期間,即 2 月初發佈,這也是許多網友期待的時間點。

DeepSeek V4 的影響力也是受關注的焦點,去年 DeepSeek V3/R1 的成功讓開源大模型登上了巔峰,今年的 DeepSeek V4 亦需要有同樣的突破。

可以確定的是,DeepSeek V4 將支持 FP8 算子,並支持國產 AI 芯片的訓練,預計將會是一個多模態的模型。

此外,先前有傳聞稱未來不會再有 DeepSeek R2 這種推理大模型,但鑒於當前形勢,這一切皆有可能,DeepSeek 也可以針對現實將大模型分為兩個方向,V4 專注於通用市場,而 R2 則專注於類似 Claude 的專用大模型,為業界帶來新的震撼。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。