不論喜歡與否,應用程式和操作系統將逐漸朝向以語音為主的互動方式發展。雖然這並非強制性的,但似乎是不可避免的現象。值得注意的是,接下來的論點並不是要強迫使用者與設備進行對話,亦不意味著人類將無意識地走入一個公眾空間中充斥著依賴人工智能的情境。圖形用戶介面不會消失,正如Lotus 1-2-3發佈後計算器並未被淘汰。即使在今天,若有人想要,也還是可以購買算盤,甚至有些算盤的價格相當高昂。
現階段,應用程式開發者和操作系統將越來越多地轉向語音互動,這一點已經無法改變。而這背後的原因也很明顯,最主要的就是可及性。這不僅僅是指那些無法實體互動的使用者,儘管這本身已經非常重要。還包括那些不如某些使用者熟悉科技的朋友們,他們同樣面臨著如何使用手機、電腦及其他平台的困難。若有人對這些使用者持有懷疑態度,認為他們只是懶惰,那麼很遺憾,這樣的看法會忽略了現代計算的核心理念。科技的進步應該是降低進入門檻,幫助人們達成需求,而不論他們對於技術的熟悉程度如何。
此外,語音為主的互動方式不可忽視的另一個原因就是支撐這一技術的基礎技術正在不斷進步。雖然每一個大型語言模型仍然會犯錯誤,且這種情況可能會持續存在,但許多公司、前沿的人工智能實驗室以及獨立開發者正在學習如何規避這些限制,甚至有些已經在探索全新的架構,顯示出相當大的潛力。在過去一年中,語音介面的進展顯著,包括像Wispr和Speechify這樣的工具,逐漸被更多人採用。根據Wispr Flow的創始人兼首席執行官Tanay Kothari所說,使用者最終會達到一個點,語音輸入將占到產品使用的約75%。而成熟使用者中,鍵盤的使用率則下降到5%以下。
同時,Speechify也在朝著更高的自動化能力邁進。近期,OpenClaw的推出對這一領域造成了巨大的變化,超出了許多人的預期。越來越多的使用者依賴平台如ElevenLabs來與他們的代理進行語音互動,部分使用者甚至主動將ElevenLabs的API整合進OpenClaw中。對於這一點,業內人士無疑會讚賞其進步。
科技的演變速度令人驚訝,這一切都在迅速改變。我在撰寫這篇文章的時候,OpenClaw尚未發展至今日的狀態。最初,我預測不久的將來,應用程式和操作系統將會依賴自主框架,使用者只需口述需求,人工智能便會理解其意圖並執行相應的操作。如今,這一預測似乎來得比我想的還要快。原本打算在文章結尾提及Anthropic的MCP和Apple的App Intents,來說明語音介面所需的各種要素正逐漸完善。即便如此,現在對這些功能的期望已不再僅僅依賴開發者,這樣的想法看起來有些過時。
許多使用者都會發現,語音可能是他們與技術互動的最簡單方式。從在iPhone或Mac上口述請求,到獲得高級的快捷指令,或進行照片調整、查找和編輯文件,甚至跨應用請求多步驟的工作流,隨著技術的進步,越來越明顯的是,對於大多數使用者而言,最容易使用的介面可能就是語音。這樣的轉變反映了人類從最初的表達方式中不斷精煉的過程。
不過,儘管語音技術的發展令人興奮,個人仍然不喜歡收到語音消息。




