DeepSeek 正式發佈新模型“MODEL1”
MODEL1 是 DeepSeek FlashMLA 支持的兩個主要模型架構之一,另一個是 DeepSeek-V3.2。根據推測,MODEL1 很可能是針對高效推理而設計,與 V3.2 相比,內存佔用更低,適合邊緣設備或成本敏感的應用場景。此外,MODEL1 亦可能是一個長序列專家,針對 16K+ 序列優化,尤其適合文檔理解和代碼分析等長上下文任務。 MODEL1 的硬件實現覆蓋多個 GPU 架構。在英偉達 H100/H200(SM90 架構)上,有兩個版本:model1_persistent_h64.
cu 針對 64 頭配置,model1_persistent_h128.cu 針對 128 頭配置。在最新的 B200(SM100 架構)上,則有專門的 Head64 核心實現,而 SM100 的 Head128 實現僅支持 MODEL1,不支持 V3.2。這一動作引發了業界的猜測,認為 DeepSeek 為了適配英偉達新一代 GPU,對 MODEL1 架構進行了專門優化。 DeepSeek 目前已發佈的主要模型分別代表了兩條技術路線:V 系列“全能助手”追求極致性能,而 R 系列“解題專家”則專注於複雜推理。
2024 年 12 月推出的 V3 標誌著 DeepSeek 的一個重要里程碑,憑藉其高效的 MoE 架構奠定了強大的綜合性能基礎。隨後,DeepSeek 迅速迭代,推出了增強推理及智能體能力的 V3.1,並於 2025 年 12 月發佈最新正式版 V3.2,還推出了一個針對高難度數學及學術問題的特殊版本 V3.2-Speciale。 2025 年 1 月推出的 R1 模型,通過強化學習在解決數學問題及代碼編程等複雜推理任務上展現卓越表現,並首創了“深度思考”模式。據科技媒體 The Info
rmation 的報導,DeepSeek 計劃在今年 2 月中旬農曆新年期間推出新一代旗艦 AI 模型——DeepSeek V4,並預期將具備更強的寫代碼能力。 此外,DeepSeek 研究團隊近期也發佈了兩篇技術論文,介紹了一種名為“優化殘差連接(mHC)”的新訓練方法,以及一種受生物學啟發的“AI 記憶模塊(Engram)”。這些新研究成果的整合,無疑增添了對未來模型的期待。
新模型架構曝光
DeepSeek 於近日更新其官方 GitHub 倉庫,發佈了一系列 FlashMLA 代碼,並在此過程中揭示了一個全新模型架構標識“MODEL1”。該標識在代碼中被提及達 31 次,標誌著 R1 模型發佈一周年之際的新進展。FlashMLA 是 DeepSeek 獨創的針對英偉達 Hopper 架構 GPU 深度優化的軟件工具,專注於加速大模型的“推理生成”流程,基於多層注意力機制(MLA),這一技術是 DeepSeek 在模型架構上實現低成本、高性能的關鍵之一。MODEL1 是 DeepSeek FlashMLA 支持的兩個主要模型架構之一,另一個是 DeepSeek-V3.2。根據推測,MODEL1 很可能是針對高效推理而設計,與 V3.2 相比,內存佔用更低,適合邊緣設備或成本敏感的應用場景。此外,MODEL1 亦可能是一個長序列專家,針對 16K+ 序列優化,尤其適合文檔理解和代碼分析等長上下文任務。 MODEL1 的硬件實現覆蓋多個 GPU 架構。在英偉達 H100/H200(SM90 架構)上,有兩個版本:model1_persistent_h64.
cu 針對 64 頭配置,model1_persistent_h128.cu 針對 128 頭配置。在最新的 B200(SM100 架構)上,則有專門的 Head64 核心實現,而 SM100 的 Head128 實現僅支持 MODEL1,不支持 V3.2。這一動作引發了業界的猜測,認為 DeepSeek 為了適配英偉達新一代 GPU,對 MODEL1 架構進行了專門優化。 DeepSeek 目前已發佈的主要模型分別代表了兩條技術路線:V 系列“全能助手”追求極致性能,而 R 系列“解題專家”則專注於複雜推理。
2024 年 12 月推出的 V3 標誌著 DeepSeek 的一個重要里程碑,憑藉其高效的 MoE 架構奠定了強大的綜合性能基礎。隨後,DeepSeek 迅速迭代,推出了增強推理及智能體能力的 V3.1,並於 2025 年 12 月發佈最新正式版 V3.2,還推出了一個針對高難度數學及學術問題的特殊版本 V3.2-Speciale。 2025 年 1 月推出的 R1 模型,通過強化學習在解決數學問題及代碼編程等複雜推理任務上展現卓越表現,並首創了“深度思考”模式。據科技媒體 The Info
rmation 的報導,DeepSeek 計劃在今年 2 月中旬農曆新年期間推出新一代旗艦 AI 模型——DeepSeek V4,並預期將具備更強的寫代碼能力。 此外,DeepSeek 研究團隊近期也發佈了兩篇技術論文,介紹了一種名為“優化殘差連接(mHC)”的新訓練方法,以及一種受生物學啟發的“AI 記憶模塊(Engram)”。這些新研究成果的整合,無疑增添了對未來模型的期待。




