應用程式未來將以語音為主導互動方式

無論喜歡與否,未來的應用程式和作業系統將逐漸朝向以語音為主的互動方式邁進。雖然這並不是強制性的,但卻是一個不可避免的趨勢。不過,接下來我要提到的觀點並不意味著使用者會被迫以語音與設備進行互動,也不代表人類會無意識地朝著一個充斥著依賴人工智能的環境前進。圖形使用介面(GUI)並不會消失,正如計算機在 Lotus 1-2-3 發佈後並未消失一樣。事實上,即使在今天,若需要的話,仍然可以購買一個算盤,有些甚至價格不菲。

然而,對於應用程式開發者和作業系統來說,逐漸朝向語音互動的趨勢已經是明顯的,這其中最明顯的原因是可及性。這不僅僅指無法實體接觸設備的使用者,還包括那些技術能力不如他人的使用者,他們同樣面臨著在手機、電腦和平台上進行操作的困難。若有人將這些使用者視為懶惰,那麼很抱歉告訴你,這樣的想法其實錯失了現代計算的核心承諾。科技的進步應該降低進入的門檻,幫助人們達成目標,無論他們對技術的熟悉程度如何。

再者,語音優先的互動方式之所以不可避免,還因為支撐這種方式的技術終於變得成熟。雖然現有的每一個大型語言模型(LLM)可能仍然會犯錯,但企業、前沿人工智能實驗室以及獨立開發者正在學會如何克服這些限制,或者轉向全新的架構,部分架構顯示出很大的潛力。在過去一年中,基於語音的介面取得了顯著進展,像是 Wispr 和 Speechify 等工具的使用率逐漸上升。Wispr Flow 的創始人兼 CEO Tanay Kothari 表示,使用者最終會達到語音輸入佔所有輸入約75%的程度,而對於成熟的使用者來說,鍵盤的使用率甚至降至5%以下。

此外,Speechify 也在朝著這個方向發展。近期由 OpenClaw 引發的變革,讓人們對自主代理的期待大幅提升。這使得許多使用者依賴平台,如 ElevenLabs,與他們的代理進行語音互動,並且 OpenClaw 也主動實施了 ElevenLabs API。掌握這些資訊的人會告訴你,這一進展是相當顯著的。

事實上,進展的速度相當快。撰寫這篇文章的時候,OpenClaw 剛剛崛起。最初,我預測應用程式和作業系統將會逐漸依賴自主框架,使用者只需要說出所需,人工智能便會理解意圖並執行相應的步驟。現在看來,這個預測並不遙遠。原本我還打算提及 Anthropic 的 MCP 和 Apple 的 App Intents,來展示如何使語音介面實現的相關技術正在逐漸成型。

即使如此,對於開發者依賴的觀念也逐漸顯得短視。我記得有一位名叫 John Gruber 的人士提到過,在德雷克塞爾大學,學校最終鋪設了人們走出的草地小徑,因為那條路比建築師設計的更短。我真心相信,對於許多使用者來說,語音將成為那條最短的道路。從在 iPhone 或 Mac 上說出請求,獲得高級捷徑回應,到編輯照片、查詢和編輯文件,甚至跨應用請求多步驟工作流程,越來越明顯的是,隨著科技逐漸跟上,對於大多數使用者來說,最容易的互動方式就是根本不需要介面。

儘管如此,對於語音訊息的偏好仍然存在爭議,這無疑是一個需要進一步探討的話題。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。