近日,根據外媒報導,Apple 研究人員成功開發出一款名為 Ferret-UI Lite 的全新設備端人工智能代理。這款輕量級模型能夠直接在設備上運行,並根據用戶的指令自主與各類應用程序的圖形界面進行互動。
這些早期模型雖然功能強大,但模型參數較大,更側重於在伺服器端運行。 此次發佈的 Ferret-UI Lite 則代表了不同的研究方向——高效與輕量化。它是一個僅有 30 億參數的變體,其核心目標是在資源有限的設備上(如手機)實現強大的 GUI(圖形用戶界面)代理功能。 研究人員指出,當前大多數 GUI 代理都依賴大型基礎模型,這些模型雖然推理和規劃能力強,但體積龐大、計算需求高,難以在設備端流暢運行。為了解決這一矛盾,Ferret-UI Lite 通過一系列創新技術,實現了性能與體積的平衡。
它採用了即時裁剪與放大技術:模型在初步分析屏幕后,會對其關注的區域進行動態裁剪和放大,再進行二次判斷,這有效弥補了小模型處理大量圖像信息的局限性。 研究結果顯示,儘管體積小巧,Ferret-UI Lite 在多個基準測試中的表現,足以匹敵甚至超越參數規模高達其 24 倍的競品模型。它尤其擅長處理短期、低層次的操作任務。雖然在涉及多個步驟的複雜互動上表現尚有不足,但作為一款完全運行在設備端的 AI 代理,它提供了顯著優勢:所有數據處理都在本地完成,無需上傳至雲端,極大地提升了用戶隱私和數據安全性。
據悉,與之前主要使用 iPhone 截圖進行測試的版本不同,Ferret-UI Lite 的訓練和評估主要在 Android、網頁及桌面 GUI 環境中進行。這或許反映了當前大規模 GUI 代理測試平台的可獲取性現狀,但也展示了該模型跨平台應用的潛力。
Ferret 系列的持續探索
這項研究是 Apple 對多模態大語言模型,特別是其 Ferret 系列模型的持續探索。早在 2023 年底,Apple 就推出了名為「FERRET」的基礎模型,旨在讓人工智能理解圖像中的特定部分。隨後,Apple 陸續發佈了針對移動用戶界面(UI)理解的 Ferret-UI 及其增強版 Ferret-UI 2。這些早期模型雖然功能強大,但模型參數較大,更側重於在伺服器端運行。 此次發佈的 Ferret-UI Lite 則代表了不同的研究方向——高效與輕量化。它是一個僅有 30 億參數的變體,其核心目標是在資源有限的設備上(如手機)實現強大的 GUI(圖形用戶界面)代理功能。 研究人員指出,當前大多數 GUI 代理都依賴大型基礎模型,這些模型雖然推理和規劃能力強,但體積龐大、計算需求高,難以在設備端流暢運行。為了解決這一矛盾,Ferret-UI Lite 通過一系列創新技術,實現了性能與體積的平衡。
它採用了即時裁剪與放大技術:模型在初步分析屏幕后,會對其關注的區域進行動態裁剪和放大,再進行二次判斷,這有效弥補了小模型處理大量圖像信息的局限性。 研究結果顯示,儘管體積小巧,Ferret-UI Lite 在多個基準測試中的表現,足以匹敵甚至超越參數規模高達其 24 倍的競品模型。它尤其擅長處理短期、低層次的操作任務。雖然在涉及多個步驟的複雜互動上表現尚有不足,但作為一款完全運行在設備端的 AI 代理,它提供了顯著優勢:所有數據處理都在本地完成,無需上傳至雲端,極大地提升了用戶隱私和數據安全性。
據悉,與之前主要使用 iPhone 截圖進行測試的版本不同,Ferret-UI Lite 的訓練和評估主要在 Android、網頁及桌面 GUI 環境中進行。這或許反映了當前大規模 GUI 代理測試平台的可獲取性現狀,但也展示了該模型跨平台應用的潛力。




