Google Gemini 將於 2026 年實現對 Android 手機的語音控制功能

在 2025 年,我曾預期能看到 Gemini 如何控制 Android 手機的更多應用。雖然在五月的演示和其他基礎工作的展示中已有所涉及,但 Google 的完整願景仍未完全顯現。在 2025 年的 I/O 大會上,Google 展示了 Project Astra 的最新研究原型,該原型可以從網絡或 Chrome 獲取內容,搜尋和播放 YouTube 影片,搜尋電子郵件,代表用戶撥打電話以及下訂單。

近 2 分鐘的演示中,Gemini 展示了如何在 Android 的 Chrome 中滾動 PDF 文檔,並打開 YouTube 應用以顯示搜尋結果頁面,然後進行滾動,最後選擇或點擊一段視頻。Google 正在努力將這些功能引入 Gemini Live。到了 10 月,Google 向開發者提供了一種計算機使用模型的預覽版本,讓 Gemini 能像人類一樣通過滾動、點擊和輸入來操作用戶介面。

目前可用的功能是「針對網頁瀏覽器優化」,但 Google 提到這在移動 UI 控制任務上有很大的潛力。Google 將這些功能描述為「構建強大通用代理的關鍵下一步」,因為「許多數位任務仍需要與圖形用戶介面進行直接互動」。未來版本的 Siri 將允許用戶使用聲音在應用間進行操作。

Apple 在 2024 年提出的願景是,過去需要在多個應用之間切換的任務,將能通過一系列聲音指令在幾秒鐘內完成。Apple 也已詳細說明了應用開發者需要採取的行動以支持這些功能。目前尚未有 Google,特別是 Android 團隊,對於是否會推出類似系統或方法的消息。Siri 可以在應用間執行操作,例如用戶可以告訴 Siri「讓這張照片更突出」,然後要求 Siri 將其放入 Notes 應用中的特定筆記,而無需任何手動操作。

相對而言,Google 展示的功能比較普遍,看似並不需要任何先前的整合。在許多方面,這是一種務實的方法,特別是如果 Android 開發者不急於在其應用中支持此功能。這並不是 Google 第一次朝這個方向努力。在 2019 年,新版 Google Assistant 的前提是,設備上的語音處理—當時的突破—將使得點擊使用手機顯得緩慢。這一代的 Assistant 將使用戶能夠即時用語音操作手機,跨應用多任務處理,並幾乎無延遲地完成複雜操作。

然而,這一功能在 2019 年並未大行其道,且仍然受限於 Pixel 獨有,並遭遇了之前助手時代的問題,比如需要嚴格的語音命令。大型語言模型應該能夠讓用戶以更自然的對話方式表達指令。希望它也能解決能力限制,能在任何應用或網站中採取行動,而不必事先接觸過,這似乎是 Apple 系統的限制之一。生成式 AI 看似能夠解決 Google 過去模式的所有投訴,但未知的是用戶對此的接受程度。

一些場景顯示這將非常有用,例如無需雙手的使用,正如 Google 在 Astra 演示中所展示的那樣。保守來說,預計這將是明年主流應用的範疇。對於智能眼鏡(甚至手錶)的影響也相當深遠。畢竟,在短期內,眼鏡的顯示屏不會運行手機大小的應用。想像一下,如果手機可以被控制,並且信息能從這些輔助設備(包括耳機)傳遞過來,而手機的屏幕保持關閉在口袋裡。

除了這之外,最大的問題是這種聲控是否會在將來成為主要的用戶互動方式,取代觸控方式,尤其是在手機上,甚至是筆記本電腦上。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。