DeepSeek V4 參數量或達 1.6 萬億 較預期高 60%

距離 4 月下旬已經沒有幾天,DeepSeek V4 大模型的發佈特別令人期待,昨天該公司研究人員突然更新了 DeepGEMM 算子庫,被視為 V4 發佈的前兆。不過他們顯然也預料到外界的反應,更新之後還額外加了一個說明確實強調,這次更新只與 DeepGEMM 開發相關,與任何模型發佈無關,就是告訴大家不要多想,這不代表 V4 要發了。 然而越是這樣的聲明,越讓大家對 DeepSeek V4 感到興趣,因為 DeepGEMM 這波更新的亮點實在太多,無法與 V4 大模型無關。

這次更新除了支援 FP8_FP4 混合算子並優化對 NVIDIA Blackwell 的支援外,架構上級主要升級 Mega MoE 及 HyperConnection,其中 Mega MoE 有可能帶來 MoE 架構的一次重升級。

DeepGEMM 更新規格

功能細節
混合精度支援FP8_FP4 混合算子
硬體優化NVIDIA Blackwell 相容性提升
新架構Mega MoE、HyperConnection

Mega MoE 的好處很多,網上有不少解釋,Gemini 的分析顯示 V4 的激活性專家數量會比 V3 的 256 個大幅提升,可能達到數千個,如此一來就能極大提升 V4 的性能,同時維持活性,不會對算力及顯存有過高需求。更重要的一點,DeepGEMM 這次更新還顯示了 V4 大模型的參數量,網友表示單層 MoE 大約是 25.37B,如果是 60 層,那 V4 大概就是 1.

6T 的大模型,再不濟也是 48 層 1.25T 的大模型。 相比之前 V4 是個 1T 萬億參數的謠言,1.6T 參數量意味著比之前預期還要高 60%,那性能表現就非常值得期待了。即使 1.6T 沒實現,1.25T 參數量也會比當前 V3 的 6700 億參數量翻倍,依此可見表現在望,畢竟 Mega MoE 技術再做到數千個激活性專家,那絕對是一次巨變,改變 MoE 架構大模型發展的里程碑事件。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。