壞消息是,開源模型與閉源模型之間的差距越來越大了;好消息是,DeepSeek 又推出了新作。DeepSeek 正式發佈了兩款新模型——DeepSeek V3.2 和 DeepSeek-V3.2-Speciale。前者能夠與 GPT-5 進行有效對話,而後者的高性能版本更是直接挑戰閉源模型的天花板——Gemini,雙方在某些方面不相上下。此外,DeepSeek 近期還在 IMO 2025(國際數學奧林匹克)、CMO 2025(中國數學奧林匹克)等比賽中斬獲金牌。 這是 DeepSeek 今年第九次發佈模型,儘管大家期待的 R2 仍未亮相。
DeepSeek 如何利用更少的數據和顯卡,打造出能與國際巨頭抗衡的模型,值得關注。
每次只需要計算當前 token 與這些目錄的關係,從而提高處理長文本的能力。實驗顯示,使用了稀疏注意力的 V3.2 模型在推理成本上幾乎沒有增長,相比之下,傳統的 V3.1 模型則隨著句子增長而推理成本不斷上升。 此外,DeepSeek 開始重視模型的後訓練工作。開源模型在這一階段的投入往往較少,導致模型的表現未能達到最佳。DeepSeek 決定設計一套新的強化學習協議,為模型的後訓練階段投入超過 10% 的算力,從而彌補之前的不足。特別版的 DeepSeek V3.2 Speciale 取消了長度限制,鼓勵模型自由思考,這使得其在與 Gemini 3 的競爭中佔據了一席之地。
DeepSeek 也重視模型在智能體方面的能力,通過構建虛擬環境並合成大量數據來輔助訓練,DeepSeek-V3.2 在後訓練過程中使用了24667個真實代碼環境任務、50275個真實搜索任務等多種真實任務來提升模型表現。 同時,DeepSeek 還優化了模型使用工具的流程,確保在調用外部工具時模型的思考過程不會中斷,這樣可以大幅提高用戶的體驗。這些改進讓 DeepSeek 的新模型具備了與世界頂尖開源模型一較高下的能力。 儘管 DeepSeek 在多方面有所進步,但表現依然不算完美。根據研究,DeepSeek V3.
2 Speciale 在回答問題時,所需 token 數量較高,這一點在與 Gemini 3 Pro 的比較中得以顯示。測試結果顯示,Gemini 只需 4,972 個 token,而 DeepSeek 則需 8,077 個 token,顯示出一定的差距。然而,從價格方面來看,DeepSeek 的費用相對較低,使用 8,000 多個 token 僅需 0.0032 美元,而 Gemini 在使用 5,000 個 token 時則需 0.06 美元,顯示出 DeepSeek 在性價比上的優勢。 在開源模型與閉源模型的競爭中,DeepSeek 正在努力縮小這一差距,通過節省算力和數據的策略,展現出其獨特的發展方向。
這不禁令人想起 Ilya Sutskever 的觀點,即單靠堆砌參數並無未來,算法的研究同樣重要。DeepSeek 的進步不僅依賴於參數規模的提升,更在於如何用有限的數據創造更多的智能。
DeepSeek 如何利用更少的數據和顯卡,打造出能與國際巨頭抗衡的模型,值得關注。
新技術與創新
為了達成這一目標,DeepSeek 引入了一系列新技術,包括稀疏注意力(DSA)。這一技術在之前的 V3.2-EXP 版本中進行過測試,這次則成為主力模型的一部分。大模型在對話過程中,隨著交談的增長,往往會出現胡言亂語的情況,甚至可能完全中斷對話。這是因為傳統的注意力機制要求每個 token 與前面的每個 token 之間進行計算,導致計算量隨著句子增長而大幅增加。 DeepSeek 通過在模型中增加固定頁數的目錄,來幫助模型更有效地進行長文閱讀。每次只需要計算當前 token 與這些目錄的關係,從而提高處理長文本的能力。實驗顯示,使用了稀疏注意力的 V3.2 模型在推理成本上幾乎沒有增長,相比之下,傳統的 V3.1 模型則隨著句子增長而推理成本不斷上升。 此外,DeepSeek 開始重視模型的後訓練工作。開源模型在這一階段的投入往往較少,導致模型的表現未能達到最佳。DeepSeek 決定設計一套新的強化學習協議,為模型的後訓練階段投入超過 10% 的算力,從而彌補之前的不足。特別版的 DeepSeek V3.2 Speciale 取消了長度限制,鼓勵模型自由思考,這使得其在與 Gemini 3 的競爭中佔據了一席之地。
DeepSeek 也重視模型在智能體方面的能力,通過構建虛擬環境並合成大量數據來輔助訓練,DeepSeek-V3.2 在後訓練過程中使用了24667個真實代碼環境任務、50275個真實搜索任務等多種真實任務來提升模型表現。 同時,DeepSeek 還優化了模型使用工具的流程,確保在調用外部工具時模型的思考過程不會中斷,這樣可以大幅提高用戶的體驗。這些改進讓 DeepSeek 的新模型具備了與世界頂尖開源模型一較高下的能力。 儘管 DeepSeek 在多方面有所進步,但表現依然不算完美。根據研究,DeepSeek V3.
2 Speciale 在回答問題時,所需 token 數量較高,這一點在與 Gemini 3 Pro 的比較中得以顯示。測試結果顯示,Gemini 只需 4,972 個 token,而 DeepSeek 則需 8,077 個 token,顯示出一定的差距。然而,從價格方面來看,DeepSeek 的費用相對較低,使用 8,000 多個 token 僅需 0.0032 美元,而 Gemini 在使用 5,000 個 token 時則需 0.06 美元,顯示出 DeepSeek 在性價比上的優勢。 在開源模型與閉源模型的競爭中,DeepSeek 正在努力縮小這一差距,通過節省算力和數據的策略,展現出其獨特的發展方向。
這不禁令人想起 Ilya Sutskever 的觀點,即單靠堆砌參數並無未來,算法的研究同樣重要。DeepSeek 的進步不僅依賴於參數規模的提升,更在於如何用有限的數據創造更多的智能。




