DeepSeek 在 GitHub 發佈了多模態推理模型及技術報告,標題為《Thinking with Visual Primitives(以視覺原語思考)》。該模型基於 DeepSeek V4-Flash(284B 總參數、推理時激活 13B 的 MoE 架構)構建,提出一種全新的多模態推理範式。報告指出,現有大型多模態模型存在一個被忽略的基本性瓶頸:「指代鴻溝」(Reference Gap),即模型能「看見」圖像內容,但在推理過程中用自身語言構建思維鏈時,無法精確對應左邊那個大而近中央的紅色
物體在密集場景中的位置視角對象,導致注意力偏移並得出錯誤結論。此前學界主流應對方向是提升感知分辨率,但報告認為「看見」和「能說」本質上是兩件事。
視覺原語推理核心創新
該模型的核心創新在於將點座標和邊界框嵌入推理過程本身,使其成為思維鏈的基本元素。模型在推理時每提取一個視覺對象,就同步輸出其座標。例如:「找到一隻熊 [452,23,804,411],正爬樹,排除,再往左下看,找到另一隻 [50,447,647,771],站在岩石邊緣,符合條件。」座標不再是事後標註的答案,而是推理過程中消除歧義的空間錨點。 以下為模型規格比較表:
| 模型 | 總參數 | 激活參數 | 756×756 圖像視覺 KV 項目 |
|---|---|---|---|
| DeepSeek V4-Flash | 284B | 13B (MoE) | 81 |
| Claude Sonnet 4.6 | – | – | 約 870 |
| Gemini-3-Flash | – | – | 約 1100 |
架構層面,模型實現 7056 倍視覺壓縮,一張 756×756 圖像經 ViT 處理後生成 2916 個圖像塊 token,經 3×3 空間壓縮合併為 324 個 token,再通過壓縮稀疏注意力(CSA)機制將 KV 緩存進一步壓縮 4 倍,最終剩 81 個視覺 KV 項目。 訓練數據方面,團隊從近 10 萬個目標檢測數據集中篩選約 3.17 萬個高質量數據源,生成超過 4000 萬條訓練樣本,涵蓋計數、空間推理、迷宮導航和路徑追蹤四類任務。
後訓練採用先專家化、後統一個籠策略,分別訓練邊界框和點座標兩個專家人數模型,經強化學習迭代優化後通過在線籠統蒸餾合併為統一個模型。 實驗結果在 11 個基準測試上與 Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6 等主流模型對比。計數任務上,Pixmo-Count 精確匹配得分 89.2%,超越 Gemini-3-Flash 的 88.
2%,大幅領先 GPT-5.4 的 76.6% 和 Claude Sonnet 4.6 的 68.7%。最具代表性的差異出現在具身推理上:迷宮導航得分 66.9%,GPT-5.4 為 50.6%、Gemini-3-Flash 為 49.4%、Claude Sonnet 4.6 為 48.9%,提升約 17 個百分點;路徑追蹤得分 56.7%,GPT-5.4 為 46.
5%。報告同時指出當前局限性:模型需明確觸發詞才會啟用視覺原語機制,極細粒度場景下座標精確度有局限,跨場景泛化能力仍有提升空間。




