Apple 開發新型 AI 圖像標註模型,準確度超越十倍大模型

Apple 的研究人員最近開發出一種新的 AI 模型訓練方法,專注於圖像標題生成,能夠提供更準確、詳細的描述,同時使用更小的模型。這項研究名為 RubiCap:基於評分指導的強化學習模型,用於密集圖像標題生成,Apple 團隊與威斯康辛大學麥迪遜分校合作,建立了一個新的框架,為密集圖像標題生成模型帶來了優越的結果。

密集圖像標題生成的目標是生成對於圖像中所有元素的詳細描述,而非單一的總結。這意味著模型能夠識別圖像中的多個元素和區域,並以細緻的方式進行描述,從而提供比簡單描述更豐富的場景理解。這項技術可應用於多種任務,例如訓練視覺語言和文本到圖像的模型,並能改善圖像搜索及無障礙工具。

根據研究人員的觀察,目前基於 AI 的密集圖像標題生成模型訓練方法存在顯著不足。雖然通過強大的視覺語言模型生成合成標題是一種實用的替代方案,但監督式蒸餾的輸出多樣性有限,且泛化能力較弱。強化學習雖然能克服這些限制,但目前的成功案例主要集中在可驗證的領域,而這在開放式標題生成中並不適用。

為了解決這些問題,他們提出了一個新的框架,採取了創新的方法。他們從兩個訓練數據集中隨機抽取了 50,000 張圖像,並使用一系列現有的視覺語言模型生成多個標題選項。同時,RubiCap 模型為每張圖像生成自己的標題。RubiCap 使用 Gemini 2.5 Pro 進行圖像分析,並針對候選標題和模型自身的輸出進行評估,識別模型一致的部分及被忽略或誤表述的內容,並將其轉化為明確的評判標準。

隨後,Qwen2.5-7B-Instruct 擔任評委,根據每個標準對標題進行打分,以生成用於訓練的獎勵信號。這樣一來,模型能夠獲得更精確、結構化的反饋,從而生成更準確的標題,而不依賴單一的「正確」答案。最終,研究人員共發佈了三個模型:RubiCap-2B、RubiCap-3B 和 RubiCap-7B,參數分別為 20 億、30 億和 70 億。

與目前的模型相比,這些新模型的表現非常出色,甚至超越了高達 720 億參數的模型。在大量基準測試中,RubiCap 在 CapArena 上的勝率最高,超越了監督式蒸餾、先前的強化學習方法、人類專家標註和 GPT-4V 增強的輸出。在 CaptionQA 中,RubiCap 表現出卓越的詞彙效率,其 70 億參數模型與 Qwen2.5-VL-32B-Instruct 相當,而其 30 億參數模型則超過了 70 億參數的對手。

值得注意的是,使用緊湊的 RubiCap-3B 作為標題生成器,所生成的預訓練 VLM 的效果優於使用專有模型生成的標題。此外,在盲評估中,RubiCap-7B 在所有模型中獲得了最高的排名比例,包括 720 億和 320 億的模型,並實現了最低的幻覺懲罰及最強的準確性。

研究人員指出,較小的 30 億參數模型在某些基準上超越了更大的對手,這表明高質量的密集圖像標題生成模型並不一定需要龐大的規模。這些研究結果為未來的多模態 AI 訓練提供了新的見解。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。