昨晚,DeepSeek 多模態研究員陳小康在 X 平台發佈一篇文章,並公佈了關於多模態技術的新論文《Thinking with Visual Primitives》,表示「Excited to release」。今天一早,文章已被刪除,GitHub 上的論文亦已撤下。不過 APPSO 在其消失前已讀完整文。讀後發現,這篇論文被撤或許並非內容有問題,反倒可能透露了太多。
近日剛實測完 DeepSeek 的識圖模型,讓其數手指時,它思考一通後自嘲「我真的數傻了」,當時以為只是測試階段的小問題。這篇論文告訴我們,數手指數傻正是 GPT、Claude、Gemini 集體沒解決的技術瓶頸。而 DeepSeek 的解法頗具幽默:給 AI 一支手指。 陳小康在那篇推文寫道:「Traditional CoT stays in the linguistic space, but visual reasoning needs more.
By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the “point-to-reason” synergy humans use.」翻譯為:「傳統思維鏈停留在語言空間,但視覺推理需要更多。透過使用點和框作為認知錨點,我們的模型彌合了『引用鴻溝』,模擬了人類『指指想想』的協同機制。
」看得準且指得準,是兩回事。目前多模態大模型做圖像推理,本質上仍是把看到的畫面轉化為文字,然後在文字空間做思維鏈推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash,全走這條路。
視覺原語與引用鴻溝
過去兩年,OpenAI、Google、Anthropic 的改進方向集中在一個問題:如何讓模型看得更清。高解析切割、動態分塊、放大圖片再處理。DeepSeek 稱此為 Perception Gap,感知鴻溝。但論文指出另一瓶頸:Reference Gap,引用鴻溝。模型看清了,但在推理過程中無法精準指向圖中某個東西。可以這樣理解:一圖中有 25 個密密麻麻的人站一起,用語言描述「左邊第三排穿藍色球衣那個人右邊的那個」,描述本身就是模稜兩可。
模型數著數著就丟了上下文,忘了剛數到誰。人類如何解決?天生本能:伸手指,一個指一個。 擁有 284B 參數的模型,給一支手指 DeepSeek 的方案:讓模型在思考過程中直接輸出圖片上的坐標標記。想像一下,模型看到一圖中有很多人,它的思維鏈不再是「我看到左邊有個穿藍衣的人」,而是「我看到這個人」然後加一個框的坐標,把人圈出來。每數一個人就圈一個框,圈完後框的數量就出來了。
兩種坐標格式:一種是框(bounding box),畫個矩形圈住物體,適合指定物體位置;一種是點(point),在圖上標一個位置,適合追蹤路徑和走迷宮。DeepSeek 稱這兩個東西為「視覺原語」,最小的思維單元。 關鍵變化在此:以往模型輸出坐標是作為最終答案(「目標在這裡」),現在坐標嵌入思考過程本身。坐標是塗鴉紙上的標記,不是答題上的答案。把一圖壓縮 7056 倍,依然能數清裡面有幾個人。
模型底座是 DeepSeek-V4-Flash,一個 284B 參數的 MoE 模型。MoE 意思是:模型腦袋很大,但每次回答問題只調用一小部分神經元來激活,推理時只激活 13B 參數。類似一個百人團隊,每個任務只派 5 個人上場。 視覺編碼器這邊,做三級壓縮。打個比方:你有張照片要發給朋友,網速很慢。第一步,把照片切成小方格備用;第二步,每 9 個小方格合併成 1 個(3×3 壓縮);第三步,再在輸出時進一步精簡丟棄冗餘資訊(KV Cache 壓縮 4 倍)。
實際數字:一張 756×756 的圖,57 萬像素,一路壓下來變成 81 個資訊單元。壓縮比 7056 倍。看到這個數字第一反應是:這還能看清東西?但論文結果證實,能。不僅看清,還能精準數出圖裡有 25 個人。 對比一下:同樣 800×800 的圖,Gemini-3-Flash 消耗約 1100 個 token 來表示這張圖,Claude-Sonnet-4.
6 約 870 個,GPT-5.4 約 740 個。DeepSeek 在最終計算時只用 90 個資訊單元。別人用一千多個格子記住一圖,DeepSeek 用 90 個格子就行了,然後省出來的算力全拿去「指」。4000 萬條訓練數據怎麼來的?DeepSeek 從 Huggingface 等平台把所有帶「目標檢測」標籤的數據集爬下來,初篩得 97,984 個數據源。
然後做兩輪篩選。第一輪查標籤質量。用 AI 自動審核三類問題:標籤是無意義的數字編號(類別名叫「0」「1」那種)、標籤是私人實體(「MyRoommate」)、標籤是模稜兩可(工業檢測裡的「OK」「NG」,一個蘋果「OK」和一個電路板「OK」長得完全不一樣,AI 學不了)。這輪刪 56%,剩 43,141 個。第二輪查框的質量。三個標準:漏標太多(標了一半就不標了)、框畫歪切掉物體一半、框大到把整張圖都框住(說明原始數據是圖片分類二次轉檢測數據,沒有定位資訊)。
再刪 27%,剩 31,701 個。最後按類別採樣、去重,產出超過 4000 萬高質量樣本。 DeepSeek 選擇先把框的數據做大,點的數據後面再補。原因也很簡單:讓 AI 標一個框,答案基於唯一(把物體剛好圈住);但讓 AI 標一個點,物體上哪個位置能算對,沒有唯一正確答案,訓練信號太模稜。而且框本身就包含兩個點(左上角和右下角),學會畫框後標點就是降維操作。
怎麼把「指」這能力教給模型?後訓練策略是「先分頭練,再合併」。DeepSeek 先拿框數據訓練一個專門畫框的專家模型,再拿點數據訓練一個專門標點的專家模型。分開訓練是因為數據量還不夠大,兩種能力混一起容易互相干擾。 然後對兩個專家分別做強化學習。怎麼判斷模型「畫對了框」或「走對了路」?DeepSeek 設計一套多維度的打分系統:格式對不對(坐標語法正確嗎)、邏輯通不通(思考過程有沒有自相矛盾)、答案準不準(最終結果和標準答案差多少)。
強化學習的數據篩選也有講究:先讓模型做 N 遍同一道題,全做對的題太簡單沒訓練價值,全做錯的題太難學不到東西,只留「有對有錯」的題來練。最後一步是把兩個專家的能力合到一個模型裡。具體做法:讓統一個模型看著兩個專家的輸出來學,類似一個學生同時跟兩個老師學不同科目。 給了它手指後,它是怎麼數 25 個人?給模型一張足球隊合照,問「圖裡有幾個人?」。思考過程:先判斷「這是團體合照,要數所有人,包括球員和教練」。
然後一次性輸出 25 個框坐標,每個人身上圈一個框。接著按排數統計:前排坐著 4 個 + 中排 9 個 + 後排 8 個 + 左側 2 個教練 + 右側 2 個教練 = 25。「地上的狼有幾隻?」。圖中有三隻狼。模型逐一給每隻畫框並判斷位置:第一隻,在樹幹上直立爬,排除;第二隻,在岩石邊蜷走動,算;第三隻,在碎木和泥土間,算。答案:2 隻。不是先數出三隻再減一隻,而是對每隻都做了「是不是在地上上」的判斷,每個判斷背後都有具體坐標錨定。
它真的在逐個檢查,不是在猜。 多跳空問推理。一個 3D 渲染場景裡有個紫色小東西。問題:「存在一個紫色橡膠物件跟現實金屬物件一樣大嗎?」。模型先框出現實金屬球體,確認是個小號物件。然後逐一框出場景裡其他小號物件:綠色金屬圓柱、藍色金屬方塊、藍色橡膠方塊、黃色橡膠圓柱……六個物件逐個查,顏色、材質、大小三個屬性一一核對。結論:不存在紫色橡膠的。六次定位,六次判斷。
每一步都有坐標錨定,不會出現「等等剛才查到哪了」的狀況。 論文中更多案例參考:迷宮導航:別人抓瞎,DeepSeek 真正在搜索。論文測試四種任務,迷宮是差異拉得最開的一個。任務很直接:給一張迷宮圖,問從起點到終點有沒有路,有就畫出來。迷宮有三種形狀,方格的、圓環的、折疊的。模型走迷宮的方式跟你小時候用鉛筆在紙上畫一樣:選一條岔路走到頭,走不通就退回來試另一條。
區別是它每走一步都在圖上標一個坐標點,留下記錄。論文裡展示了圓形迷宮的完整過程:模型先標出起點和終點的位置,然後開始探索。走了 18 步,中間兩次卡死胡同又退出來,最後繞出一條通路,把整條路徑的坐標點串起來輸出。 DeepSeek 還設計了一批「陷阱迷宮」:一眼看有路,但中間某段被偷偷堵住了。這類迷宮考耐性,模型不能只看起點還近的走勢就下結論,得老老實實把能走的路試一遍才能確認走不通。
正確率對比:
| 模型 | 正確率 |
|---|---|
| DeepSeek | 66.9% |
| GPT-5.4 | 50.6% |
| Claude-Sonnet-4.6 | 48.9% |
| Gemini-3-Flash | 49.4% |
| Qwen3-VL | 49.6% |
迷宮只有兩種答案:有路,或沒路。隨機猜正好 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近晃,跟抓瞎沒什麼區別。DeepSeek 的 66.9% 不算高,但它確實是在一步步走,不是在蒙。 路徑追蹤:大夥來找碴的終極版。這個任務更直觀:一堆線纏一起,每條線從一個標記通向另一個標記。你耳機線從口袋裡掏出來是什麼樣,畫面就是什麼樣。題目問你:C 這條線通向哪個終點?
模型的做法是沿著線一路輸出坐標點,像手指劃過紙面。線彎得厲害的地方點標得密,直線段標得疏。人用眼睛追一條線的時候也是這樣,彎道處放慢,直線處一掃而過。 論文還加了高難版測試:所有線顏色粗細一樣。不能靠顏色區分是哪條線,只能靠曲線本身的走勢連續性來判斷交岔口該跟著哪條走。
| 模型 | 正確率 |
|---|---|
| DeepSeek | 56.7% |
| GPT-5.4 | 46.5% |
| Claude-Sonnet-4.6 | 30.6% |
| Gemini-3-Flash | 41.4% |
Claude 的 30.6% 頗出乎意料。終點一般有四五個選項,隨機猜也該有 20% 出頭,30.6% 只比瞎猜強一點點。可能它在這類純空間追蹤任務上,語言推理的弱性反倒幫了倒忙。 怎麼教 AI 走迷宮不做弊?迷宮的訓練有個現實問題:如果只看最終答對答錯來給分,模型很快學精了,與其費力搜索還可能答錯,不如直接猜一個,反正答錯和沒走答錯,分數一樣是零。DeepSeek 的解決方案是把過程也算進分數。
每一步合規的探索都給分,穿牆扣分,走得越遠越好。哪怕最後沒到終點,只要證實搜索了大部份區域,也能拿到不錯的成績。這一來,模型就沒有偷懶的動機了。不解迷宮的要求更高:不能光說一句「走不通」,還得證明你確實把能到的地方走遍了。搜索覆蓋率也算分。 一顆彩蛋,三個局中局。後訓練數據裡沒有中文。但模型能用中文做視覺原語推理。給它一張咖啡機照片,用中文問「怎麼拿鐵」,它用中文標註了蒸奶桿、奶盒、咖啡豆、拿鐵按鈕的位置坐標,然後給出操作步驟。
多語言能力是從基礎模型那裡繼承的,視覺原語的訓練沒有把它壞掉。它還能把看圖和世界知識結合起來:給一張金門大橋照片問「這附近有 NBA 球隊嗎?」。它先框出金門大橋,推理出這是舊金山,然後回答金州勇士隊。 能理解樂紋:一塊水果切面上天堂櫻桃點好巧妙組成一張貓臉圖案,模型能指出相似點在哪裡並解釋為什麼好笑。能做密室逃脫指引用:框出高處的鑰匙、地墊上的數字、帶鎖的門,建議「把數字搬到鑰匙下面 → 踩上去拿鑰匙 → 去開門」。
論文很坦誠寫了目前做不到的事。輸入解析度有上限。ViT 輸出被卡在 81 到 384 個視覺資訊單元之間,遇到很精細的場景(比如數手指這種),坐標精度還不夠。這可能就是前天實測時數手指翻車的直接原因。目前需要特別觸發詞才能激活視覺原語模式。模型還不能自己判斷「這道題我該伸手指來做」,得有人提醒它。拓撲推理的泛化能力有限。在訓練過的迷宮類型上效果好,換一種新的空間結構就可能掉鏈子。
陳小康在那篇已刪推文裡也說了:「We’re still in the early stages; generalization in complex topological reasoning tasks isn’t perfect yet, but we’re committed to solving it.」「我們還在早期階段,複雜拓撲推理任務的泛化還不完善,但我們會持續解決。
」前天實測時,DeepSeek 識圖模式展現的那些能力(追問發佈日期含義、Lenovo鯨魚 logo、自嘲正解、給自己開「小差會」),和這篇論文描述的思維方式一脈相承。它在腦中建立視覺錨點,圍繞錨點做推理,遇到矛盾就回溯修正。 而手指數傻了,就是 Reference Gap 的活體演示。手指交疊重的畫面裡,純用語言描述去區分「從左數第三根」和「從右數第二根」,跟你自己不伸手指去數一堆擠一起的人一個道理,注意力互相干擾。
這篇論文指明的方向是:多模態推理的下一步改進在錨定機制上。DeepSeek 用 90 個資訊單元就打平了別人用上千 token 的效果,省下來的算力全拿去讓模型「一邊想一邊指」。解析度軍備競賽可以緩一緩了,教會模型伸手指,比給它配一副更貴的眼鏡管用。這只是鯨魚開了眼睛後,還長出了手指。66.9% 的迷宮正確率離完美還遠,但至少它在真走,不像隔壁那幫人在抓瞎。




