在嘈雜的環境中,人們常常需要在音樂、餐具聲和多重對話中努力分辨出特定的聲音。對於有聽力挑戰的人來說,這種努力可能會變得相當壓倒性。華盛頓大學的一組研究人員近日宣布,他們已經開發出一種能夠在這種噪音中有效分離對話對象的人工智能智能耳機。
這款耳機的設計與現有的語音隔離設備有所不同,它不需要用戶的手動輸入。耳機可以自動檢測對話中的參與者,並靜音那些與對話節奏不匹配的聲音。系統利用兩個AI模型進行操作,一個分析時間模式,另一個則過濾掉無關噪音。該系統能在兩到四秒內識別對話夥伴。研究團隊在中國蘇州的自然語言處理實驗方法會議上分享了這項研究,相關的底層代碼也已開源。
研究人員相信,這項技術未來可應用於助聽器、耳機和智能眼鏡。資深作者Shyam Gollakota表示,傳統方法往往超出了用戶的預期,現有的識別聆聽對象的方法主要依賴於植入大腦的電極來追踪注意力。他指出,自然對話中的節奏提供了一個更好的解決方案。當我們與特定群體對話時,我們的語音自然遵循輪流發言的節奏,AI可以僅通過音頻來預測和跟踪這些節奏,而不需要植入電極。
這個系統會在佩戴者開始說話時啟動。第一個模型會進行「誰在什麼時候說話」的檢查,並尋找發言者之間的低重疊。第二個模型則清理信號,並實時將隔離的音頻回饋給用戶。目前的原型支持佩戴者與最多四名其他說話者的對話,並且沒有明顯延遲。研究人員與11名參與者進行了測試,評估了在有無過濾器情況下的清晰度、噪音抑制和理解能力,過濾版本的評分超過了未過濾版本的兩倍。
這項計劃是Gollakota團隊早期實驗的延續。之前的原型需要用戶直視某個人以隔離其聲音,或調整基於距離的音頻範圍。首席作者Guilin Hu表示,新的設計消除了這些步驟。他提到,過去的所有方法都需要用戶手動選擇特定的說話者或聆聽距離,這對用戶體驗並不友好。新的系統則是自動反應的,能夠非侵入性地自動推斷人類意圖。
儘管如此,混亂的對話仍然存在挑戰。人們的打斷、重疊講話或插入對話的行為可能會使跟踪變得困難。然而,早期的結果讓研究團隊感到驚喜。這些模型是基於英語、普通話和日語進行訓練的,其他語言可能需要進行調整。目前的版本使用商業化的耳罩式耳機和基本電路。Gollakota預期該技術將縮小至耳機或助聽器的尺寸。在2025年MobiCom會議上,該團隊展示了類似的AI模型已經能在助聽器大小的芯片上運行。這項研究亦在ACL文集的EMNLP 2025會議中發表。




