Google Gemini 新增圖片標註功能,提升圖像分析準確度

Google 正在為其 Gemini AI 推出一項新的圖像標記功能,使用戶能夠直接在照片上繪畫,以幫助助理更準確地分析和編輯圖像。此前,Gemini 已經可以分析圖像或使用 Google 更新的圖像模型進行編輯,但用戶的體驗並不總是流暢。如果照片中包含多個物體或細節,用戶必須依賴仔細措辭的提示,並希望 Gemini 能集中於正確的內容。

一旦這項功能對用戶開放,將圖像附加到 Gemini 中時,會顯示一個簡短的標記介面的說明。用戶可以直接在圖像上進行草圖或添加文本註釋。例如,用戶可以圈出一個物體、畫出箭頭、突出某個區域或寫下備註。Gemini 將根據這些標記來理解用戶的請求。

實際使用效果仍然有些參差不齊。在測試中,當我們要求 Gemini 在一棟真實建築旁邊放置一棟生成的建築時,AI 的表現不理想。它並沒有將新建築添加到場景中,而是完全覆蓋了真實建築,替換為一個虛假的結構。

這一變化改善了圖像理解和編輯的能力。如果用戶想知道某樣東西是什麼,可以直接標記出確切的物品,而不是描述它。如果用戶正在編輯照片,可以標記出希望改變的區域,而無需撰寫冗長的解釋。Google 在幾個月前就開始準備這類互動,早期泄露的資訊顯示了圖像高亮工具旨在幫助 Gemini 更好地集中注意力。

此外,該公司也在改進圖像編輯,推出支持自然語言編輯的模型,並保持主題的一致性。這項標記功能將這些能力整合在一起,讓用戶的操作感覺更加自然。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。