DeepSeek 多模態研究員發佈視覺推理新論文數小時後刪除

昨晚，DeepSeek 多模態研究員陳小康在 X 平台發佈一篇文章，並公佈了關於多模態技術的新論文《Thinking with Visual Primitives》，表示「Excited to release」。今天一早，文章已被刪除，GitHub 上的論文亦已撤下。不過 APPSO 在其消失前已讀完整文。讀後發現，這篇論文被撤或許並非內容有問題，反倒可能透露了太多。

近日剛實測完 DeepSeek 的識圖模型，讓其數手指時，它思考一通後自嘲「我真的數傻了」，當時以為只是測試階段的小問題。這篇論文告訴我們，數手指數傻正是 GPT、Claude、Gemini 集體沒解決的技術瓶頸。而 DeepSeek 的解法頗具幽默：給 AI 一支手指。陳小康在那篇推文寫道：「Traditional CoT stays in the linguistic space， but visual reasoning needs more.

By using points and boxes as cognitive anchors， our model bridges the Reference Gap—mimicking the “point-to-reason” synergy humans use.」翻譯為：「傳統思維鏈停留在語言空間，但視覺推理需要更多。透過使用點和框作為認知錨點，我們的模型彌合了『引用鴻溝』，模擬了人類『指指想想』的協同機制。

」看得準且指得準，是兩回事。目前多模態大模型做圖像推理，本質上仍是把看到的畫面轉化為文字，然後在文字空間做思維鏈推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash，全走這條路。

視覺原語與引用鴻溝

過去兩年，OpenAI、Google、Anthropic 的改進方向集中在一個問題：如何讓模型看得更清。高解析切割、動態分塊、放大圖片再處理。DeepSeek 稱此為 Perception Gap，感知鴻溝。但論文指出另一瓶頸：Reference Gap，引用鴻溝。模型看清了，但在推理過程中無法精準指向圖中某個東西。可以這樣理解：一圖中有 25 個密密麻麻的人站一起，用語言描述「左邊第三排穿藍色球衣那個人右邊的那個」，描述本身就是模稜兩可。

模型數著數著就丟了上下文，忘了剛數到誰。人類如何解決？天生本能：伸手指，一個指一個。擁有 284B 參數的模型，給一支手指 DeepSeek 的方案：讓模型在思考過程中直接輸出圖片上的坐標標記。想像一下，模型看到一圖中有很多人，它的思維鏈不再是「我看到左邊有個穿藍衣的人」，而是「我看到這個人」然後加一個框的坐標，把人圈出來。每數一個人就圈一個框，圈完後框的數量就出來了。

兩種坐標格式：一種是框（bounding box），畫個矩形圈住物體，適合指定物體位置；一種是點（point），在圖上標一個位置，適合追蹤路徑和走迷宮。DeepSeek 稱這兩個東西為「視覺原語」，最小的思維單元。關鍵變化在此：以往模型輸出坐標是作為最終答案（「目標在這裡」），現在坐標嵌入思考過程本身。坐標是塗鴉紙上的標記，不是答題上的答案。把一圖壓縮 7056 倍，依然能數清裡面有幾個人。

模型底座是 DeepSeek-V4-Flash，一個 284B 參數的 MoE 模型。MoE 意思是：模型腦袋很大，但每次回答問題只調用一小部分神經元來激活，推理時只激活 13B 參數。類似一個百人團隊，每個任務只派 5 個人上場。視覺編碼器這邊，做三級壓縮。打個比方：你有張照片要發給朋友，網速很慢。第一步，把照片切成小方格備用；第二步，每 9 個小方格合併成 1 個（3×3 壓縮）；第三步，再在輸出時進一步精簡丟棄冗餘資訊（KV Cache 壓縮 4 倍）。

實際數字：一張 756×756 的圖，57 萬像素，一路壓下來變成 81 個資訊單元。壓縮比 7056 倍。看到這個數字第一反應是：這還能看清東西？但論文結果證實，能。不僅看清，還能精準數出圖裡有 25 個人。對比一下：同樣 800×800 的圖，Gemini-3-Flash 消耗約 1100 個 token 來表示這張圖，Claude-Sonnet-4.

6 約 870 個，GPT-5.4 約 740 個。DeepSeek 在最終計算時只用 90 個資訊單元。別人用一千多個格子記住一圖，DeepSeek 用 90 個格子就行了，然後省出來的算力全拿去「指」。4000 萬條訓練數據怎麼來的？DeepSeek 從 Huggingface 等平台把所有帶「目標檢測」標籤的數據集爬下來，初篩得 97,984 個數據源。

然後做兩輪篩選。第一輪查標籤質量。用 AI 自動審核三類問題：標籤是無意義的數字編號（類別名叫「0」「1」那種）、標籤是私人實體（「MyRoommate」）、標籤是模稜兩可（工業檢測裡的「OK」「NG」，一個蘋果「OK」和一個電路板「OK」長得完全不一樣，AI 學不了）。這輪刪 56%，剩 43,141 個。第二輪查框的質量。三個標準：漏標太多（標了一半就不標了）、框畫歪切掉物體一半、框大到把整張圖都框住（說明原始數據是圖片分類二次轉檢測數據，沒有定位資訊）。

再刪 27%，剩 31,701 個。最後按類別採樣、去重，產出超過 4000 萬高質量樣本。 DeepSeek 選擇先把框的數據做大，點的數據後面再補。原因也很簡單：讓 AI 標一個框，答案基於唯一（把物體剛好圈住）；但讓 AI 標一個點，物體上哪個位置能算對，沒有唯一正確答案，訓練信號太模稜。而且框本身就包含兩個點（左上角和右下角），學會畫框後標點就是降維操作。

怎麼把「指」這能力教給模型？後訓練策略是「先分頭練，再合併」。DeepSeek 先拿框數據訓練一個專門畫框的專家模型，再拿點數據訓練一個專門標點的專家模型。分開訓練是因為數據量還不夠大，兩種能力混一起容易互相干擾。然後對兩個專家分別做強化學習。怎麼判斷模型「畫對了框」或「走對了路」？DeepSeek 設計一套多維度的打分系統：格式對不對（坐標語法正確嗎）、邏輯通不通（思考過程有沒有自相矛盾）、答案準不準（最終結果和標準答案差多少）。

強化學習的數據篩選也有講究：先讓模型做 N 遍同一道題，全做對的題太簡單沒訓練價值，全做錯的題太難學不到東西，只留「有對有錯」的題來練。最後一步是把兩個專家的能力合到一個模型裡。具體做法：讓統一個模型看著兩個專家的輸出來學，類似一個學生同時跟兩個老師學不同科目。給了它手指後，它是怎麼數 25 個人？給模型一張足球隊合照，問「圖裡有幾個人？」。思考過程：先判斷「這是團體合照，要數所有人，包括球員和教練」。

然後一次性輸出 25 個框坐標，每個人身上圈一個框。接著按排數統計：前排坐著 4 個 + 中排 9 個 + 後排 8 個 + 左側 2 個教練 + 右側 2 個教練 = 25。「地上的狼有幾隻？」。圖中有三隻狼。模型逐一給每隻畫框並判斷位置：第一隻，在樹幹上直立爬，排除；第二隻，在岩石邊蜷走動，算；第三隻，在碎木和泥土間，算。答案：2 隻。不是先數出三隻再減一隻，而是對每隻都做了「是不是在地上上」的判斷，每個判斷背後都有具體坐標錨定。

它真的在逐個檢查，不是在猜。多跳空問推理。一個 3D 渲染場景裡有個紫色小東西。問題：「存在一個紫色橡膠物件跟現實金屬物件一樣大嗎？」。模型先框出現實金屬球體，確認是個小號物件。然後逐一框出場景裡其他小號物件：綠色金屬圓柱、藍色金屬方塊、藍色橡膠方塊、黃色橡膠圓柱……六個物件逐個查，顏色、材質、大小三個屬性一一核對。結論：不存在紫色橡膠的。六次定位，六次判斷。

每一步都有坐標錨定，不會出現「等等剛才查到哪了」的狀況。論文中更多案例參考：迷宮導航：別人抓瞎，DeepSeek 真正在搜索。論文測試四種任務，迷宮是差異拉得最開的一個。任務很直接：給一張迷宮圖，問從起點到終點有沒有路，有就畫出來。迷宮有三種形狀，方格的、圓環的、折疊的。模型走迷宮的方式跟你小時候用鉛筆在紙上畫一樣：選一條岔路走到頭，走不通就退回來試另一條。

區別是它每走一步都在圖上標一個坐標點，留下記錄。論文裡展示了圓形迷宮的完整過程：模型先標出起點和終點的位置，然後開始探索。走了 18 步，中間兩次卡死胡同又退出來，最後繞出一條通路，把整條路徑的坐標點串起來輸出。 DeepSeek 還設計了一批「陷阱迷宮」：一眼看有路，但中間某段被偷偷堵住了。這類迷宮考耐性，模型不能只看起點還近的走勢就下結論，得老老實實把能走的路試一遍才能確認走不通。

正確率對比：

模型	正確率
DeepSeek	66.9%
GPT-5.4	50.6%
Claude-Sonnet-4.6	48.9%
Gemini-3-Flash	49.4%
Qwen3-VL	49.6%

迷宮只有兩種答案：有路，或沒路。隨機猜正好 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近晃，跟抓瞎沒什麼區別。DeepSeek 的 66.9% 不算高，但它確實是在一步步走，不是在蒙。路徑追蹤：大夥來找碴的終極版。這個任務更直觀：一堆線纏一起，每條線從一個標記通向另一個標記。你耳機線從口袋裡掏出來是什麼樣，畫面就是什麼樣。題目問你：C 這條線通向哪個終點？

模型的做法是沿著線一路輸出坐標點，像手指劃過紙面。線彎得厲害的地方點標得密，直線段標得疏。人用眼睛追一條線的時候也是這樣，彎道處放慢，直線處一掃而過。論文還加了高難版測試：所有線顏色粗細一樣。不能靠顏色區分是哪條線，只能靠曲線本身的走勢連續性來判斷交岔口該跟著哪條走。

模型	正確率
DeepSeek	56.7%
GPT-5.4	46.5%
Claude-Sonnet-4.6	30.6%
Gemini-3-Flash	41.4%

Claude 的 30.6% 頗出乎意料。終點一般有四五個選項，隨機猜也該有 20% 出頭，30.6% 只比瞎猜強一點點。可能它在這類純空間追蹤任務上，語言推理的弱性反倒幫了倒忙。怎麼教 AI 走迷宮不做弊？迷宮的訓練有個現實問題：如果只看最終答對答錯來給分，模型很快學精了，與其費力搜索還可能答錯，不如直接猜一個，反正答錯和沒走答錯，分數一樣是零。DeepSeek 的解決方案是把過程也算進分數。

每一步合規的探索都給分，穿牆扣分，走得越遠越好。哪怕最後沒到終點，只要證實搜索了大部份區域，也能拿到不錯的成績。這一來，模型就沒有偷懶的動機了。不解迷宮的要求更高：不能光說一句「走不通」，還得證明你確實把能到的地方走遍了。搜索覆蓋率也算分。一顆彩蛋，三個局中局。後訓練數據裡沒有中文。但模型能用中文做視覺原語推理。給它一張咖啡機照片，用中文問「怎麼拿鐵」，它用中文標註了蒸奶桿、奶盒、咖啡豆、拿鐵按鈕的位置坐標，然後給出操作步驟。

多語言能力是從基礎模型那裡繼承的，視覺原語的訓練沒有把它壞掉。它還能把看圖和世界知識結合起來：給一張金門大橋照片問「這附近有 NBA 球隊嗎？」。它先框出金門大橋，推理出這是舊金山，然後回答金州勇士隊。能理解樂紋：一塊水果切面上天堂櫻桃點好巧妙組成一張貓臉圖案，模型能指出相似點在哪裡並解釋為什麼好笑。能做密室逃脫指引用：框出高處的鑰匙、地墊上的數字、帶鎖的門，建議「把數字搬到鑰匙下面 → 踩上去拿鑰匙 → 去開門」。

論文很坦誠寫了目前做不到的事。輸入解析度有上限。ViT 輸出被卡在 81 到 384 個視覺資訊單元之間，遇到很精細的場景（比如數手指這種），坐標精度還不夠。這可能就是前天實測時數手指翻車的直接原因。目前需要特別觸發詞才能激活視覺原語模式。模型還不能自己判斷「這道題我該伸手指來做」，得有人提醒它。拓撲推理的泛化能力有限。在訓練過的迷宮類型上效果好，換一種新的空間結構就可能掉鏈子。

陳小康在那篇已刪推文裡也說了：「We’re still in the early stages; generalization in complex topological reasoning tasks isn’t perfect yet， but we’re committed to solving it.」「我們還在早期階段，複雜拓撲推理任務的泛化還不完善，但我們會持續解決。

」前天實測時，DeepSeek 識圖模式展現的那些能力（追問發佈日期含義、Lenovo鯨魚 logo、自嘲正解、給自己開「小差會」），和這篇論文描述的思維方式一脈相承。它在腦中建立視覺錨點，圍繞錨點做推理，遇到矛盾就回溯修正。而手指數傻了，就是 Reference Gap 的活體演示。手指交疊重的畫面裡，純用語言描述去區分「從左數第三根」和「從右數第二根」，跟你自己不伸手指去數一堆擠一起的人一個道理，注意力互相干擾。

這篇論文指明的方向是：多模態推理的下一步改進在錨定機制上。DeepSeek 用 90 個資訊單元就打平了別人用上千 token 的效果，省下來的算力全拿去讓模型「一邊想一邊指」。解析度軍備競賽可以緩一緩了，教會模型伸手指，比給它配一副更貴的眼鏡管用。這只是鯨魚開了眼睛後，還長出了手指。66.9% 的迷宮正確率離完美還遠，但至少它在真走，不像隔壁那幫人在抓瞎。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

DeepSeek 多模態研究員發佈視覺推理新論文 數小時後刪除

視覺原語與引用鴻溝

推薦內容

關於我們

DeepSeek 多模態研究員發佈視覺推理新論文數小時後刪除