DeepSeek 圖像理解功能更新可識別圖片顏色細節

DeepSeek 再度帶來驚喜，終於解鎖多模態視覺能力 DeepSeek 最近開始逐步釋放多模態功能，上週才上線 V4 版本，緊接著連續兩波降價。今天，它突然推送更新，新增視覺模式，準確識別圖像內容。研究員陳小康忍不住發文慶賀，用戶形容這是「終於長出眼睛，不再是國服盲漢了」。為何這更新如此受矚目？因為 DeepSeek 以往在多模態上落後國際巨頭如 ChatGPT、Gemini 和 Claude，早有視覺能力；國內豆包、千問等模型也表現出色。

DeepSeek 作為國產之光，多年來僅限 OCR（識別圖片文字），使用體驗明顯不足，如今終於補齊短板。直接測試視覺模式，它擺脫傳統 OCR 限制，能完整理解圖像。例如，提供一張藍色寫「這是一行紅字」的圖片，傳統 OCR 只認文字，絕對忽略顏色差異；啟用視覺後，它精準指出「這是一行藍色的紅字」，甚至察覺諷刺意味。圖像推理能力同樣出色。

實測多項場景表現

| 人臉識別 | 豆包圖像 | 幽默認出「B 站 UP 主紗織」 | 測試中，DeepSeek 在顏色、推理、數學和日常應用表現亮眼，但景觀與錯覺偶有失誤，尚未達世界頂尖水準。與 Gemini 比較，前者偶爾失準，後者更穩。現今 AI 巨頭已過新手階段，編碼、多模態、工具調用缺一不可。DeepSeek 以往視覺短板曾令人失望，如今更新有望推升 Claude Code、龍臥、Cowork 等工具表現。

據 DeepSeek 近期高活躍度，預計還有連環招數待發。

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

DeepSeek 圖像理解功能更新可識別圖片顏色細節

實測多項場景表現

Henderson

搜尋文章

實測多項場景表現

相關文章

Henderson

搜尋文章