DeepSeek 與北京大學合作發表新論文 提升大型語言模型性能

今日,DeepSeek 發佈新論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基於可擴展查找的條件記憶:大型語言模型稀疏性的新維度)。該論文由北京大學與 DeepSeek 共同完成,合著作者中包含梁文鋒。

論文提出了條件記憶(conditional memory),透過引入可擴展的查找記憶結構,在等參數、等算力條件下顯著提升模型在知識調用、推理、代碼和數學等任務上的表現。

此外,DeepSeek 還開源了相關的記憶模塊 Engram。該模塊提出了“查—算分離”的全新架構思路,業內普遍認為,Engram 有望成為 DeepSeek 下一代模型 V4 的核心技術基礎。

據媒體報導,知情人士透露,DeepSeek 計劃於農曆新年前後的 2 月中旬推出 V4 模型,不過具體時間仍可能調整。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

📬 免費訂閱 TechRitual 科技精選

每 3 日由 AI 精選 5 篇最重要香港科技新聞,直送你信箱


此文章發佈於 TechRitual 香港
Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。