Apple AI 出來了!它能讓你用文字描述來執相

這款名為 MGIE 的模型是蘋果與加州大學聖塔芭芭拉分校合作開發的,它可以通過文本提示對圖像進行裁剪、調整大小、翻轉和添加濾鏡。

MGIE 代表多模態語言模型引導圖像編輯,可應用於簡單和複雜的圖像編輯任務,例如修改照片中的特定對象,使其呈現不同的形狀或更明亮。該模型結合了多種不同的語言模型使用方式。

首先,它學習如何解讀用戶的提示,然後「想像」出修改後的效果(例如,要求照片中的天空呈現更藍色,就會增加圖像中天空部分的亮度)。

在使用 MGIE 編輯照片時,用戶只需輸入他們想要改變的圖片內容。該論文舉了編輯一張意大利辣腸披薩的圖片的例子。輸入提示「使其更健康」將添加蔬菜配料。一張在撒哈拉沙漠中的老虎照片看起來很暗,但在告訴模型「增加對比度以模擬更多光線」的指示下,照片變得更亮。

研究人員在論文中表示:「MGIE 不僅提供簡短但含糊的指導,還能夠明確地解讀視覺意圖,從而實現合理的圖像編輯。我們從各個編輯方面進行了廣泛的研究,並證明了我們的 MGIE 在保持競爭效率的同時有效提升了性能。我們還相信 MLLM 引導的框架將對未來的視覺與語言研究做出貢獻。」蘋果已經通過 GitHub 提供了 MGIE 的下載,但還在 Hugging Face Spaces 上發布了一個網絡演示。該公司沒有透露這款模型在研究之外的計劃。

一些圖像生成平台,如 OpenAI 的 DALL-E 3,可以通過文本輸入對其創建的圖片進行簡單的照片編輯任務。作為圖像編輯的首選,Adobe(Photoshop 的創建者)也擁有自己的 AI 編輯模型。其 Firefly AI 模型可以生成填充,為照片添加生成的背景。

按此即看更多:AI 人工智能 新聞
按此即看更多:
免費使用 ChatGPT-4 的 6 個方法
按此即看更多:5 個「香港」免費使用 ChatGPT-4 的方法

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。