Apple AI 出來了！它能讓你用文字描述來執相

這款名為 MGIE 的模型是蘋果與加州大學聖塔芭芭拉分校合作開發的，它可以通過文本提示對圖像進行裁剪、調整大小、翻轉和添加濾鏡。

MGIE 代表多模態語言模型引導圖像編輯，可應用於簡單和複雜的圖像編輯任務，例如修改照片中的特定對象，使其呈現不同的形狀或更明亮。該模型結合了多種不同的語言模型使用方式。

首先，它學習如何解讀用戶的提示，然後「想像」出修改後的效果（例如，要求照片中的天空呈現更藍色，就會增加圖像中天空部分的亮度）。

在使用 MGIE 編輯照片時，用戶只需輸入他們想要改變的圖片內容。該論文舉了編輯一張意大利辣腸披薩的圖片的例子。輸入提示「使其更健康」將添加蔬菜配料。一張在撒哈拉沙漠中的老虎照片看起來很暗，但在告訴模型「增加對比度以模擬更多光線」的指示下，照片變得更亮。

研究人員在論文中表示：「MGIE 不僅提供簡短但含糊的指導，還能夠明確地解讀視覺意圖，從而實現合理的圖像編輯。我們從各個編輯方面進行了廣泛的研究，並證明了我們的 MGIE 在保持競爭效率的同時有效提升了性能。我們還相信 MLLM 引導的框架將對未來的視覺與語言研究做出貢獻。」蘋果已經通過 GitHub 提供了 MGIE 的下載，但還在 Hugging Face Spaces 上發布了一個網絡演示。該公司沒有透露這款模型在研究之外的計劃。

一些圖像生成平台，如 OpenAI 的 DALL-E 3，可以通過文本輸入對其創建的圖片進行簡單的照片編輯任務。作為圖像編輯的首選，Adobe（Photoshop 的創建者）也擁有自己的 AI 編輯模型。其 Firefly AI 模型可以生成填充，為照片添加生成的背景。

按此即看更多：AI 人工智能新聞
按此即看更多：免費使用 ChatGPT-4 的 6 個方法
按此即看更多：5 個「香港」免費使用 ChatGPT-4 的方法

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

Apple AI 出來了！它能讓你用文字描述來執相

十斗

搜尋文章