DeepSeek 圖像理解功能更新 可識別圖片顏色細節

DeepSeek 再度帶來驚喜,終於解鎖多模態視覺能力 DeepSeek 最近開始逐步釋放多模態功能,上週才上線 V4 版本,緊接著連續兩波降價。今天,它突然推送更新,新增視覺模式,準確識別圖像內容。研究員陳小康忍不住發文慶賀,用戶形容這是「終於長出眼睛,不再是國服盲漢了」。為何這更新如此受矚目?因為 DeepSeek 以往在多模態上落後國際巨頭如 ChatGPT、Gemini 和 Claude,早有視覺能力;國內豆包、千問等模型也表現出色。

DeepSeek 作為國產之光,多年來僅限 OCR(識別圖片文字),使用體驗明顯不足,如今終於補齊短板。 直接測試視覺模式,它擺脫傳統 OCR 限制,能完整理解圖像。例如,提供一張藍色寫「這是一行紅字」的圖片,傳統 OCR 只認文字,絕對忽略顏色差異;啟用視覺後,它精準指出「這是一行藍色的紅字」,甚至察覺諷刺意味。圖像推理能力同樣出色。

實測多項場景表現

| 測試類型 | 輸入描述 | DeepSeek 表現 | |———-|———-|————–| | 顏色識別 | 藍底紅字圖片 | 精準辨識顏色與諷刺,超越 OCR | | 圖像推理 | 經典金銀銅大廈圖 | 看懂隱喻,並本土化翻譯「金大廈」「銀大廈」「銅大廈」 | | 模糊場景 | 隨手拍開車照片 | 13 秒內判斷為「沙特阿拉伯」,僅憑外觀與光效 |

| 數學圖表 | 複雜數學圖(D 老爺專屬梗) | 完美解釋:取實部即去「i」(Eye,眼鏡);三角形為「Grad」(Graduate,畢業帽) | | 日常應用 | 3.5 mm 插頭、方頭 USB 插向 | 正確解答隨手拍疑問,勝任日常任務 | | 景觀判斷 | 美麗地球夜景 | 誤判為中國太空站(實為城市夜景) | | 經典錯覺 | 兩球大小錯覺圖 | 初判一樣大,細讀後承認差異(疑似強化學習自欺) |

| 人臉識別 | 豆包圖像 | 幽默認出「B 站 UP 主紗織」 | 測試中,DeepSeek 在顏色、推理、數學和日常應用表現亮眼,但景觀與錯覺偶有失誤,尚未達世界頂尖水準。與 Gemini 比較,前者偶爾失準,後者更穩。現今 AI 巨頭已過新手階段,編碼、多模態、工具調用缺一不可。DeepSeek 以往視覺短板曾令人失望,如今更新有望推升 Claude Code、龍臥、Cowork 等工具表現。

據 DeepSeek 近期高活躍度,預計還有連環招數待發。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。