DeepSeek GitHub 發佈多模態推理模型及技術報告

DeepSeek 在 GitHub 發佈了多模態推理模型及技術報告，標題為《Thinking with Visual Primitives（以視覺原語思考）》。該模型基於 DeepSeek V4-Flash（284B 總參數、推理時激活 13B 的 MoE 架構）構建，提出一種全新的多模態推理範式。報告指出，現有大型多模態模型存在一個被忽略的基本性瓶頸：「指代鴻溝」（Reference Gap），即模型能「看見」圖像內容，但在推理過程中用自身語言構建思維鏈時，無法精確對應左邊那個大而近中央的紅色

物體在密集場景中的位置視角對象，導致注意力偏移並得出錯誤結論。此前學界主流應對方向是提升感知分辨率，但報告認為「看見」和「能說」本質上是兩件事。

視覺原語推理核心創新

該模型的核心創新在於將點座標和邊界框嵌入推理過程本身，使其成為思維鏈的基本元素。模型在推理時每提取一個視覺對象，就同步輸出其座標。例如：「找到一隻熊 [452，23，804，411]，正爬樹，排除，再往左下看，找到另一隻 [50，447，647，771]，站在岩石邊緣，符合條件。」座標不再是事後標註的答案，而是推理過程中消除歧義的空間錨點。以下為模型規格比較表：

模型	總參數	激活參數	756×756 圖像視覺 KV 項目
DeepSeek V4-Flash	284B	13B (MoE)	81
Claude Sonnet 4.6	–	–	約 870
Gemini-3-Flash	–	–	約 1100

架構層面，模型實現 7056 倍視覺壓縮，一張 756×756 圖像經 ViT 處理後生成 2916 個圖像塊 token，經 3×3 空間壓縮合併為 324 個 token，再通過壓縮稀疏注意力（CSA）機制將 KV 緩存進一步壓縮 4 倍，最終剩 81 個視覺 KV 項目。訓練數據方面，團隊從近 10 萬個目標檢測數據集中篩選約 3.17 萬個高質量數據源，生成超過 4000 萬條訓練樣本，涵蓋計數、空間推理、迷宮導航和路徑追蹤四類任務。

後訓練採用先專家化、後統一個籠策略，分別訓練邊界框和點座標兩個專家人數模型，經強化學習迭代優化後通過在線籠統蒸餾合併為統一個模型。實驗結果在 11 個基準測試上與 Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6 等主流模型對比。計數任務上，Pixmo-Count 精確匹配得分 89.2%，超越 Gemini-3-Flash 的 88.

2%，大幅領先 GPT-5.4 的 76.6% 和 Claude Sonnet 4.6 的 68.7%。最具代表性的差異出現在具身推理上：迷宮導航得分 66.9%，GPT-5.4 為 50.6%、Gemini-3-Flash 為 49.4%、Claude Sonnet 4.6 為 48.9%，提升約 17 個百分點；路徑追蹤得分 56.7%，GPT-5.4 為 46.

5%。報告同時指出當前局限性：模型需明確觸發詞才會啟用視覺原語機制，極細粒度場景下座標精確度有局限，跨場景泛化能力仍有提升空間。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

DeepSeek GitHub 發佈多模態推理模型及技術報告

視覺原語推理核心創新

推薦內容

關於我們