Google 推出 Gemini 3.5 Flash 中的電腦使用功能

Google 官方宣布,Gemini 3.5 Flash 現已內建電腦使用功能,旨在幫助開發者構建能夠跨平台互動的代理程式。

Gemini 3.5 Flash 的新功能整合

根據 Google 的說法,電腦使用功能現在成為 Gemini 3.5 Flash 的一部分,這是迄今為止在代理程式電腦使用任務中表現最佳的工具。這項功能之前僅作為獨立的 Gemini 2.5 電腦使用模型提供,而現在已經原生整合於 Gemini Flash 主模型中。Google 指出,Gemini 在功能調用及使用內建工具(如搜尋和地圖)方面已經表現出色,現在加入電腦使用能力後,開發者可以利用 3.5 Flash 穩定地構建自定義代理,這些代理能夠在瀏覽器、移動設備及桌面環境中進行視覺識別、推理及行動。

“這解鎖了長期及企業自動化任務的改進性能,例如持續軟件測試及專業應用中的知識工作。”

Google

開發者如何使用電腦使用功能

開發者和企業可以通過 Gemini API 和 Gemini Enterprise Agent Platform 開始使用 3.5 Flash 中的電腦使用功能。3.5 Flash 利用電腦使用功能分析 Gemini 應用,並返回一個分類的功能列表。此外,3.5 Flash 還能對自身文檔進行可及性問題的審核。

安全性措施以減少風險

為了減輕在實時環境中運行的代理所面臨的提示注入風險,Google 在 Gemini 3.5 Flash 中採用了針對性的對抗性訓練。此外,Google 還推出了兩個可選的企業安全系統,使企業能夠:要求對敏感或不可逆行動進行明確的用戶確認;在識別到間接提示注入時自動停止任務。Google 鼓勵開發者結合這些功能使用安全沙盒、人類介入驗證及嚴格的訪問控制,以採取“深度防禦”的方法。關於安全措施的更多信息,可以參考最佳實踐文檔。

“我們已經看到客戶利用電腦使用功能創造價值。”

Google

開發者可通過試用演示環境來體驗這些功能,並深入了解 Gemini API 和 Gemini Enterprise Agent Platform 的參考實現及文檔。

資料來源:Google 官方公告

十斗
十斗

十斗是 TechRitual Hong Kong 科技記者,擁有計算機科學與工程學位,專注報導 AI 人工智能、Google、機器學習及數據科學領域。持續追蹤全球 AI 產業動態,為讀者提供深入淺出的科技分析。