Apple 開發新型 AI 圖像標註模型，準確度超越十倍大模型

Apple 的研究人員最近開發出一種新的 AI 模型訓練方法，專注於圖像標題生成，能夠提供更準確、詳細的描述，同時使用更小的模型。這項研究名為 RubiCap：基於評分指導的強化學習模型，用於密集圖像標題生成，Apple 團隊與威斯康辛大學麥迪遜分校合作，建立了一個新的框架，為密集圖像標題生成模型帶來了優越的結果。

密集圖像標題生成的目標是生成對於圖像中所有元素的詳細描述，而非單一的總結。這意味著模型能夠識別圖像中的多個元素和區域，並以細緻的方式進行描述，從而提供比簡單描述更豐富的場景理解。這項技術可應用於多種任務，例如訓練視覺語言和文本到圖像的模型，並能改善圖像搜索及無障礙工具。

根據研究人員的觀察，目前基於 AI 的密集圖像標題生成模型訓練方法存在顯著不足。雖然通過強大的視覺語言模型生成合成標題是一種實用的替代方案，但監督式蒸餾的輸出多樣性有限，且泛化能力較弱。強化學習雖然能克服這些限制，但目前的成功案例主要集中在可驗證的領域，而這在開放式標題生成中並不適用。

為了解決這些問題，他們提出了一個新的框架，採取了創新的方法。他們從兩個訓練數據集中隨機抽取了 50,000 張圖像，並使用一系列現有的視覺語言模型生成多個標題選項。同時，RubiCap 模型為每張圖像生成自己的標題。RubiCap 使用 Gemini 2.5 Pro 進行圖像分析，並針對候選標題和模型自身的輸出進行評估，識別模型一致的部分及被忽略或誤表述的內容，並將其轉化為明確的評判標準。

隨後，Qwen2.5-7B-Instruct 擔任評委，根據每個標準對標題進行打分，以生成用於訓練的獎勵信號。這樣一來，模型能夠獲得更精確、結構化的反饋，從而生成更準確的標題，而不依賴單一的「正確」答案。最終，研究人員共發佈了三個模型：RubiCap-2B、RubiCap-3B 和 RubiCap-7B，參數分別為 20 億、30 億和 70 億。

與目前的模型相比，這些新模型的表現非常出色，甚至超越了高達 720 億參數的模型。在大量基準測試中，RubiCap 在 CapArena 上的勝率最高，超越了監督式蒸餾、先前的強化學習方法、人類專家標註和 GPT-4V 增強的輸出。在 CaptionQA 中，RubiCap 表現出卓越的詞彙效率，其 70 億參數模型與 Qwen2.5-VL-32B-Instruct 相當，而其 30 億參數模型則超過了 70 億參數的對手。

值得注意的是，使用緊湊的 RubiCap-3B 作為標題生成器，所生成的預訓練 VLM 的效果優於使用專有模型生成的標題。此外，在盲評估中，RubiCap-7B 在所有模型中獲得了最高的排名比例，包括 720 億和 320 億的模型，並實現了最低的幻覺懲罰及最強的準確性。

研究人員指出，較小的 30 億參數模型在某些基準上超越了更大的對手，這表明高質量的密集圖像標題生成模型並不一定需要龐大的規模。這些研究結果為未來的多模態 AI 訓練提供了新的見解。

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

Apple 開發新型 AI 圖像標註模型，準確度超越十倍大模型

推薦內容

關於我們