華盛頓大學團隊推 VueBuds 耳機 內置相機實時語音描述視野

美國華盛頓大學研究團隊展示一款名為 VueBuds 的新型原型耳機,這款真無線耳機內嵌微型攝像頭,並結合視覺語言模型(VLM),可透過語音互動即時描述佩戴者視野中的畫面、辨識物體並進行翻譯。研究人員形容其為「移動端、純語音版的圖片搜尋」。 VueBuds 原型基於SONY WF-1000XM3 無線降噪耳機改裝,在耳機外殼中嵌入米粒大小的黑白攝像頭,透過裝置的視覺語言模型進行本地或低帶寬處理,用戶只需開口提問,即可獲得對眼前場景的語音描述、物體名稱或文字內容的解釋與翻譯。

研究團隊在人機互動領域重要會議 CHI 2026 上發表論文,詳細介紹了這一系統的設計與實驗結果。項目負責人之一、華盛頓大學計算機科學與工程學院教授 Shyam Gollakota 表示,團隊在設計時吸取了 Google 眼鏡的教訓——後者外形突兀、私隱爭議巨大,被公眾嘲諷為「Glassholes」,最終折戟。Gollakota 指出,相較眼鏡,許多人不喜歡臉上增添顯眼設備,而耳機已是高度普及、社會接受度極高的佩戴形態,因此將視覺功能「藏」進耳機,有望在可用性與私隱感受間取得更好平衡。

技術規格與性能數據

規格項目細節
基礎硬體基於 Sony WF-1000XM3 改裝,米粒大小黑白攝像頭
功耗控制低於 5 mW,不使用時自動關閉以節省電量
辨識準確率(16 名參與者測試)物體辨識與翻譯:83%;書本封面、作者等:93%
使用者測試規模90 名用戶,17 個視覺問答任務
性能比較回應品質與 Ray-Ban Meta 智能眼鏡相當

從第二層面看,VueBuds 借助高解析黑白攝像頭與低帶寬傳輸,將功耗控制在 5 mW 以下,並在不使用時自動關閉以節省電量。研究人員表示,在一項包含 90 名用戶、17 個視覺問答任務的測試中,VueBuds 的回應品質可與嵌入攝像頭的大型模型 Ray-Ban Meta 智能眼鏡相媲美,顯示出將快速發展的視覺語言模型導入耳機這一大眾設備形態的潛力。示範影片中,一名佩戴 VueBuds 的男子站在公屋廚房內,提出「請描述我面前的場景」這一請求,大約一秒後,耳機中傳來語氣輕鬆、模擬人聲女音的 AI

回應:「我看到一個廚房區域,有一扇窗戶帶來大量光線。檯面上有一些瓶子跟一本書。窗戶有百葉簾,左側有一個水槽。」隨後,當他注視一張唱片封面並查詢專輯名稱時,系統很快辨識出那是披頭士樂隊的《Abbey Road》專輯封面。 論文中公布的實驗數據顯示,在 16 名參與者的測試中,VueBuds 在物體辨識與翻譯任務上的準確率約為 83%,在辨識書籍封面、作者等任務上準確率約為 93%。

研究團隊舉例稱,未來用戶有望借助該系統閱讀尚未翻譯的韓國漫畫,或在中餐廳點「只有中文菜單上才有」的隱藏菜品,而不再受限於自身語言能力。 針對常見疑慮「耳機攝像頭位於臉部兩側,是否會被佩戴者自身頭部遮擋視野」,研究人員解釋,VueBuds 借鑒人類雙眼視差原理,透過兩顆攝像頭的不同視角進行「立體視覺」融合,從而獲得對前方場景的理解能力。不過,受限於目前僅支援黑白畫面,VueBuds 無法回應與顏色相關的問題;導航與複雜場景下的高精度翻譯仍需更高解析顏色攝像頭與更強算力支援。

電源與算力限制亦意味 VueBuds 目前無法連續、高帶寬地進行視頻串流與處理,僅適合「拍攝+問答」的間斷使用方式。儘管如此,研究團隊認為,其在能耗、體積與反應速度間的平衡,已足以證明這一形態作為「視覺智能平台」的可行性,為未來耳機類設備的功能擴展提供新方向。 與此同時,私隱與安全風險亦成為繞不開的話題。論文指出,過去已有公司提出「拍一張照片就能辨識陌生人姓名」的應用構想,當時網絡上流行的反諷回應是:「那樣的話,女性就會因此而死亡。

」VueBuds 在現階段提供有限的安全措施,例如耳機上的小小「工作指示燈」,但觀察者往往不會察覺一副耳機正在抓拍圖像,而結合音頻串流、藍牙連接與第三方臉部辨識服務,這類設備一旦普及,可構成「低調仍具監控」式的嚴重私隱威脅。論文強調,若監管部門能制定並執行有效規範,確保公眾安全與個人私隱不受侵害,這類「會看」的耳機設備則有望為視障人士等群體帶來顯著便利,大幅提升其生活品質與出行、學習、娛樂等方面的自由度。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。