Apple 的研究團隊最近發佈了一項關於 Manzano 的研究,這是一個多模態模型,能夠結合視覺理解與文本到圖像生成,同時顯著降低當前實現中的性能與質量折衷。以下是該研究的詳情。
在標題為「MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer」的研究中,近 30 名 Apple 研究人員詳細介紹了一種創新的統一方法,能夠在單一多模態模型中實現圖像理解與文本到圖像生成。這一點相當重要,因為目前支持圖像生成的統一多模態模型往往會面臨折衷:要麼犧牲視覺理解以優先考慮自回歸的圖像生成,要麼優先考慮理解,卻犧牲生成的真實性。換句話說,它們往往難以同時在這兩方面表現出色。
研究人員指出,造成這一差距的主要原因是視覺標記化的對立性。自回歸生成通常偏好離散的圖像標記,而理解則通常受益於連續的嵌入。許多模型採用雙標記器策略,利用語義編碼器來獲得豐富的連續特徵,同時使用像 VQ-VAE 這樣的量化標記器來處理生成。然而,這迫使語言模型處理兩種不同的圖像標記類型,分別來自高層語義空間和低層空間,從而產生顯著的任務衝突。
雖然一些解決方案如 Mixture-of-Transformers (MoT) 可以通過為每個任務設置獨立通道來緩解此問題,但這些方法在參數方面效率不高,且通常與現代的 Mixture-of-Experts (MoE) 架構不兼容。另一類方法則通過固定一個預訓練的多模態大型語言模型(LLM)並將其連接到擴散解碼器,來繞過這一衝突。雖然這保留了理解能力,但卻使生成過程脫節,失去了潛在的互利好處,限制了從擴展多模態 LLM 中獲得的生成潛力。
簡而言之,當前的多模態架構並不適合同時執行這兩項任務,因為它們依賴於相互衝突的視覺表示,這使得同一語言模型難以調和。這正是 Manzano 發揮作用的地方。它通過使用自回歸的大型語言模型來預測圖像應該包含的語義,然後將這些預測傳遞給擴散解碼器以渲染實際像素。
根據研究人員的解釋,Manzano 在其架構中結合了三個組件:一個混合視覺標記器,能夠生成連續和離散的視覺表示;一個 LLM 解碼器,接受文本標記和/或連續圖像嵌入,自回歸地預測來自共同詞彙的下一個離散圖像或文本標記;一個圖像解碼器,根據預測的圖像標記渲染圖像像素。
通過這種方法,研究人員表示:「Manzano 能夠處理反直覺且不符合物理定律的提示(例如‘鳥在大象的下方飛’)表現與 GPT-4o 和 Nano Banana 相當。」研究人員還指出,在多個基準測試中,「Manzano 3B 和 30B 模型在性能上超過或持平於其他一流的統一多模態大型語言模型。」
Apple 的研究人員對 Manzano 在幾個不同規模的模型進行了測試,從 300M 參數模型到 30B 參數版本。這使他們能夠評估統一多模態性能在模型擴展時的提升情況。
| 模型 | 參數量 | 性能表現 |
|---|---|---|
| Manzano 300M | 300M | 優越 |
| Manzano 3B | 3B | 競爭性 |
| Manzano 30B | 30B | 優越 |
最後,Manzano 在圖像編輯任務中表現也相當不錯,包括指令引導編輯、風格轉換、填充/擴展以及深度估計等。欲了解完整研究內容,包括有關 Manzano 混合標記器訓練、擴散解碼器設計、擴展實驗和人類評估的技術細節,請參考相關資料。若對此主題感興趣,也可關注 Apple 研究人員近期詳述的 UniGen,這是又一個前景可期的圖像模型。
儘管這些模型目前尚未在 Apple 設備上提供,但它們顯示出 Apple 在 Image Playground 及其後續項目中,持續努力提升第一方圖像生成的成果。




