11月24日,Microsoft宣布推出7B參數AI模型Fara-7B,旨在成為“計算機使用代理(Computer Use Agent,CUA)”,可以直接在用戶本地設備上運行複雜任務。Fara-7B不僅在同等規模下實現了最佳性能,還讓AI代理擺脫了對龐大雲端模型的依賴,能在資源有限的系統上實現低延遲及更強的數據隱私保障。
據介紹,Fara-7B的架構針對企業用戶最關注的數據安全需求進行設計。由於模型足夠精簡,可以在本地運行,用戶在敏感工作流程(如內部賬戶管理或涉密數據處理)中實現自動化,相關信息始終不會離開本地設備,極大提高了隱私和合規性。
Fara-7B通過“看屏操作”進行網頁交互。它使用截圖,像人類一樣通過“視覺感知”頁面佈局,預測坐標完成點擊、輸入、滾動等動作,並不依賴於瀏覽器的底層無障礙樹結構。這種僅靠像素級視覺信息“操作”的方法,使其能在代碼結構混亂、頁面難以解析的網站上正常工作。
Microsoft研究院高級產品經理Yash Lara表示,完全在本地處理視覺輸入實現了真正的“像素主權”,讓自動化和數據推理過程均不出本地,從而滿足醫療、金融等強監管行業的合規需求。
在WebVoyager等標準測試中,Fara-7B的任務成功率為73.
5%,優於資源耗費更大的GPT-4o(65.1%)和UI-TARS-1.5-7B(66.4%)等模型。同時,Fara-7B完成任務的平均步驟僅需16步,而UI-TARS-1.5-7B為41步,效率明顯提升。此外,Fara-7B在準確率與成本之間表現出最佳性價比。
不過,Microsoft也強調該模型仍存在通用AI系統的問題,如幻覺、複雜指令處理失誤等。為降低風險,Fara-7B引入了“關鍵點”機制:在涉及用戶個人數據或不可逆動作(如發送郵件、金融操作)前,模型會主動暫停並請求用戶確認。Microsoft設計了配套的人機交互UI(Magentic-UI),讓用戶能及時干預,避免過度打擾。
Fara-7B的開發採用“知識蒸餾”方式,將多智能體系統的大量成功案例(14.5萬個由Magentic-One生成的自動導航軌跡)壓縮轉化到單一模型中。其底座模型為Qwen2.5-VL-7B,具備最長128,000詞的上下文窗口和強大的文本與視覺元素對齊能力。整個過程以監督微調為主,讓模型“模仿”人類專家的示範。
未來,Microsoft強調不會一味增大模型體量,而是聚焦“讓小模型更聰明更安全”。後續計劃將合成環境中的強化學習機制(RL)引入訓練,讓Fara-7B在沙箱環境中自主學習。
目前,Fara
-7B已通過MIT協議在Hugging Face及MicrosoftFoundry平台開放發佈,允許商用,但Microsoft提醒模型尚未達到生產級別,主要適合原型開發和測試。




