DeepSeek GitHub 發佈多模態推理模型及技術報告

DeepSeek 在 GitHub 發佈了多模態推理模型及技術報告,標題為《Thinking with Visual Primitives(以視覺原語思考)》。該模型基於 DeepSeek V4-Flash(284B 總參數、推理時激活 13B 的 MoE 架構)構建,提出一種全新的多模態推理範式。報告指出,現有大型多模態模型存在一個被忽略的基本性瓶頸:「指代鴻溝」(Reference Gap),即模型能「看見」圖像內容,但在推理過程中用自身語言構建思維鏈時,無法精確對應左邊那個大而近中央的紅色

物體在密集場景中的位置視角對象,導致注意力偏移並得出錯誤結論。此前學界主流應對方向是提升感知分辨率,但報告認為「看見」和「能說」本質上是兩件事。

視覺原語推理核心創新

該模型的核心創新在於將點座標和邊界框嵌入推理過程本身,使其成為思維鏈的基本元素。模型在推理時每提取一個視覺對象,就同步輸出其座標。例如:「找到一隻熊 [452,23,804,411],正爬樹,排除,再往左下看,找到另一隻 [50,447,647,771],站在岩石邊緣,符合條件。」座標不再是事後標註的答案,而是推理過程中消除歧義的空間錨點。 以下為模型規格比較表:

模型總參數激活參數756×756 圖像視覺 KV 項目
DeepSeek V4-Flash284B13B (MoE)81
Claude Sonnet 4.6約 870
Gemini-3-Flash約 1100

架構層面,模型實現 7056 倍視覺壓縮,一張 756×756 圖像經 ViT 處理後生成 2916 個圖像塊 token,經 3×3 空間壓縮合併為 324 個 token,再通過壓縮稀疏注意力(CSA)機制將 KV 緩存進一步壓縮 4 倍,最終剩 81 個視覺 KV 項目。 訓練數據方面,團隊從近 10 萬個目標檢測數據集中篩選約 3.17 萬個高質量數據源,生成超過 4000 萬條訓練樣本,涵蓋計數、空間推理、迷宮導航和路徑追蹤四類任務。

後訓練採用先專家化、後統一個籠策略,分別訓練邊界框和點座標兩個專家人數模型,經強化學習迭代優化後通過在線籠統蒸餾合併為統一個模型。 實驗結果在 11 個基準測試上與 Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6 等主流模型對比。計數任務上,Pixmo-Count 精確匹配得分 89.2%,超越 Gemini-3-Flash 的 88.

2%,大幅領先 GPT-5.4 的 76.6% 和 Claude Sonnet 4.6 的 68.7%。最具代表性的差異出現在具身推理上:迷宮導航得分 66.9%,GPT-5.4 為 50.6%、Gemini-3-Flash 為 49.4%、Claude Sonnet 4.6 為 48.9%,提升約 17 個百分點;路徑追蹤得分 56.7%,GPT-5.4 為 46.

5%。報告同時指出當前局限性:模型需明確觸發詞才會啟用視覺原語機制,極細粒度場景下座標精確度有局限,跨場景泛化能力仍有提升空間。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。