Google Gemini 將於 2026 年實現對 Android 手機的語音控制功能

在 2025 年，我曾預期能看到 Gemini 如何控制 Android 手機的更多應用。雖然在五月的演示和其他基礎工作的展示中已有所涉及，但 Google 的完整願景仍未完全顯現。在 2025 年的 I/O 大會上，Google 展示了 Project Astra 的最新研究原型，該原型可以從網絡或 Chrome 獲取內容，搜尋和播放 YouTube 影片，搜尋電子郵件，代表用戶撥打電話以及下訂單。

近 2 分鐘的演示中，Gemini 展示了如何在 Android 的 Chrome 中滾動 PDF 文檔，並打開 YouTube 應用以顯示搜尋結果頁面，然後進行滾動，最後選擇或點擊一段視頻。Google 正在努力將這些功能引入 Gemini Live。到了 10 月，Google 向開發者提供了一種計算機使用模型的預覽版本，讓 Gemini 能像人類一樣通過滾動、點擊和輸入來操作用戶介面。

目前可用的功能是「針對網頁瀏覽器優化」，但 Google 提到這在移動 UI 控制任務上有很大的潛力。Google 將這些功能描述為「構建強大通用代理的關鍵下一步」，因為「許多數位任務仍需要與圖形用戶介面進行直接互動」。未來版本的 Siri 將允許用戶使用聲音在應用間進行操作。

Apple 在 2024 年提出的願景是，過去需要在多個應用之間切換的任務，將能通過一系列聲音指令在幾秒鐘內完成。Apple 也已詳細說明了應用開發者需要採取的行動以支持這些功能。目前尚未有 Google，特別是 Android 團隊，對於是否會推出類似系統或方法的消息。Siri 可以在應用間執行操作，例如用戶可以告訴 Siri「讓這張照片更突出」，然後要求 Siri 將其放入 Notes 應用中的特定筆記，而無需任何手動操作。

相對而言，Google 展示的功能比較普遍，看似並不需要任何先前的整合。在許多方面，這是一種務實的方法，特別是如果 Android 開發者不急於在其應用中支持此功能。這並不是 Google 第一次朝這個方向努力。在 2019 年，新版 Google Assistant 的前提是，設備上的語音處理—當時的突破—將使得點擊使用手機顯得緩慢。這一代的 Assistant 將使用戶能夠即時用語音操作手機，跨應用多任務處理，並幾乎無延遲地完成複雜操作。

然而，這一功能在 2019 年並未大行其道，且仍然受限於 Pixel 獨有，並遭遇了之前助手時代的問題，比如需要嚴格的語音命令。大型語言模型應該能夠讓用戶以更自然的對話方式表達指令。希望它也能解決能力限制，能在任何應用或網站中採取行動，而不必事先接觸過，這似乎是 Apple 系統的限制之一。生成式 AI 看似能夠解決 Google 過去模式的所有投訴，但未知的是用戶對此的接受程度。

一些場景顯示這將非常有用，例如無需雙手的使用，正如 Google 在 Astra 演示中所展示的那樣。保守來說，預計這將是明年主流應用的範疇。對於智能眼鏡（甚至手錶）的影響也相當深遠。畢竟，在短期內，眼鏡的顯示屏不會運行手機大小的應用。想像一下，如果手機可以被控制，並且信息能從這些輔助設備（包括耳機）傳遞過來，而手機的屏幕保持關閉在口袋裡。

除了這之外，最大的問題是這種聲控是否會在將來成為主要的用戶互動方式，取代觸控方式，尤其是在手機上，甚至是筆記本電腦上。

Google Gemini 將於 2026 年實現對 Android 手機的語音控制功能

推薦內容

關於我們