DeepSeek 與北京大學合作發表新論文 提升大型語言模型性能

今日,DeepSeek 發佈新論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基於可擴展查找的條件記憶:大型語言模型稀疏性的新維度)。該論文由北京大學與 DeepSeek 共同完成,合著作者中包含梁文鋒。

論文提出了條件記憶(conditional memory),透過引入可擴展的查找記憶結構,在等參數、等算力條件下顯著提升模型在知識調用、推理、代碼和數學等任務上的表現。

此外,DeepSeek 還開源了相關的記憶模塊 Engram。該模塊提出了“查—算分離”的全新架構思路,業內普遍認為,Engram 有望成為 DeepSeek 下一代模型 V4 的核心技術基礎。

據媒體報導,知情人士透露,DeepSeek 計劃於農曆新年前後的 2 月中旬推出 V4 模型,不過具體時間仍可能調整。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。