阿里開源 Qwen-Image-Layered 圖像生成模型 助力專業設計領域創新

阿里開源全新圖像生成模型 Qwen-Image-Layered,首次在模型內實現 PS 級的圖層理解與圖像生成。 該模型採用自研創新架構,能將圖片「拆解」成多個圖層,類似專業設計師使用 Photoshop 進行分層作圖及修圖,實現幾乎「零漂移」的 AI 圖像精準編輯,徹底解決 AI 生圖的一致性難題,並加速大模型在專業設計領域的實際應用。

新模型的技術創新



Qwen-Image-Layered 打破了主流視覺大模型的「扁平式思維」,通過「分層」和「補全」建立起對現實世界更準確的「物理式理解」,使 AI 從平面的「看圖說話」邁向真實的「空間重構」。在當前的視覺大模型領域,圖像一致性編輯始終是核心挑戰。AI 生圖雖具創意但難以編輯,主要因為大模型對圖片的理解是扁平的,無法像人類一樣感知圖中物體的遠近與遮擋等物理關係。 因此,讓大模型生圖和編輯如同抽卡「開盲盒」。例如,若希望將畫中的貓向左挪 10 厘米,但 AI 完全無法知道貓左挪後空出來的背景會是什麼,只能重新生成一次,這樣貓與背景都會變得不同。

這種「牽一發而動全身」的隨機性,使得 AI 繪圖在追求極致精準的商業廣告設計、UI 界面設計、影視後期處理等專業領域,始終只能作為參考,而無法真正取代專業工具。 Qwen-Image-Layered 的出現,意味著視覺大模型從「像素預測」轉向「結構重組」。千問團隊自研了一種全新的 RGBA-VAE 編碼,在傳統的 RGB 圖像中引入代表透明度圖層的「Alpha 通道」,使模型具備了圖層的概念。同時,新模型採用了創新的 VLD-MMDiT 架構,搭配獨特的「圖層級 3D 位置編碼」,使 AI 能自動「腦補」被遮擋部分的背景紋理,實現對圖層和空間的更深入理解和生成。

據了解,為了訓練這種能力,千問團隊從海量的專業 Photoshop(PSD)文件中提取真實圖層邏輯,讓 AI 自出生起便擁有專業設計師的「分層思維」。 業內人士指出,千問新模型將為創意產業帶來實質性變革。AI 生圖不再是一塊死板的素材,而是成為一個活生生的、可無限調整的素材庫。圖片編輯也不再需要複雜精細的人工抠圖,而是由 AI 原生地實現「內在可編輯性」,設計師、動畫和影視製作人員可在保持背景或主體完全不變的前提下,對特定圖層的構件進行位移、縮放或重繪,顯著提升數字內容創作的生產效率。 Qwen-Image-Layered 已在魔搭社區和 HuggingFace 開源,開發者和企業可免費下載商用。

截至目前,阿里已開源近 400 個千問模型,全球下載量突破 7 億次,衍生模型數超過 18 萬個,是全球第一的開源模型。通義大模型已服務超過 100 萬家客戶,在中國企業級大模型調用市場中通義位居第一,是中國企業選擇最多的大模型。

Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。