阿里開源 Qwen-Image-Layered 圖像生成模型助力專業設計領域創新

阿里開源全新圖像生成模型 Qwen-Image-Layered，首次在模型內實現 PS 級的圖層理解與圖像生成。該模型採用自研創新架構，能將圖片「拆解」成多個圖層，類似專業設計師使用 Photoshop 進行分層作圖及修圖，實現幾乎「零漂移」的 AI 圖像精準編輯，徹底解決 AI 生圖的一致性難題，並加速大模型在專業設計領域的實際應用。

新模型的技術創新

Qwen-Image-Layered 打破了主流視覺大模型的「扁平式思維」，通過「分層」和「補全」建立起對現實世界更準確的「物理式理解」，使 AI 從平面的「看圖說話」邁向真實的「空間重構」。在當前的視覺大模型領域，圖像一致性編輯始終是核心挑戰。AI 生圖雖具創意但難以編輯，主要因為大模型對圖片的理解是扁平的，無法像人類一樣感知圖中物體的遠近與遮擋等物理關係。因此，讓大模型生圖和編輯如同抽卡「開盲盒」。例如，若希望將畫中的貓向左挪 10 厘米，但 AI 完全無法知道貓左挪後空出來的背景會是什麼，只能重新生成一次，這樣貓與背景都會變得不同。

這種「牽一發而動全身」的隨機性，使得 AI 繪圖在追求極致精準的商業廣告設計、UI 界面設計、影視後期處理等專業領域，始終只能作為參考，而無法真正取代專業工具。 Qwen-Image-Layered 的出現，意味著視覺大模型從「像素預測」轉向「結構重組」。千問團隊自研了一種全新的 RGBA-VAE 編碼，在傳統的 RGB 圖像中引入代表透明度圖層的「Alpha 通道」，使模型具備了圖層的概念。同時，新模型採用了創新的 VLD-MMDiT 架構，搭配獨特的「圖層級 3D 位置編碼」，使 AI 能自動「腦補」被遮擋部分的背景紋理，實現對圖層和空間的更深入理解和生成。

據了解，為了訓練這種能力，千問團隊從海量的專業 Photoshop（PSD）文件中提取真實圖層邏輯，讓 AI 自出生起便擁有專業設計師的「分層思維」。業內人士指出，千問新模型將為創意產業帶來實質性變革。AI 生圖不再是一塊死板的素材，而是成為一個活生生的、可無限調整的素材庫。圖片編輯也不再需要複雜精細的人工抠圖，而是由 AI 原生地實現「內在可編輯性」，設計師、動畫和影視製作人員可在保持背景或主體完全不變的前提下，對特定圖層的構件進行位移、縮放或重繪，顯著提升數字內容創作的生產效率。 Qwen-Image-Layered 已在魔搭社區和 HuggingFace 開源，開發者和企業可免費下載商用。

截至目前，阿里已開源近 400 個千問模型，全球下載量突破 7 億次，衍生模型數超過 18 萬個，是全球第一的開源模型。通義大模型已服務超過 100 萬家客戶，在中國企業級大模型調用市場中通義位居第一，是中國企業選擇最多的大模型。

阿里開源 Qwen-Image-Layered 圖像生成模型助力專業設計領域創新

新模型的技術創新

Henderson

搜尋文章

新模型的技術創新

相關文章

Henderson

搜尋文章