一支來自賓州州立大學的計算機科學研究團隊,近日發表了一項驚人的研究,顯示手機微小的震動竟然能揭露通話內容,這一發現無疑將隱私問題推向了新的高度。這項技術運用了毫米波雷達與人工智能語音識別系統的結合,研究人員能夠在距離手機約 3 米(10 英尺)內捕捉並轉錄通話,準確率約為 60%。這項技術的突破引發了對潛在濫用的重大擔憂,尤其是在隱私日益受到重視的當前社會中。
這項研究建立在 2022 年的一個項目之上,當時團隊利用類似的方法達到了 83% 的準確率,能夠識別出 10 個預先定義的單詞。新研究則將這一能力延伸至持續的語音轉錄,儘管由於解碼嘈雜雷達數據的複雜性,這次的準確率有所下降。研究的首席作者 Suryoday Basak 表示,在使用手機通話時,人們往往忽略了通過耳機傳出的震動,這些震動使整個手機都會產生共振。如果利用遠程雷達捕捉這些震動,並運用機器學習技術來識別語音內容,便能夠推斷出整個對話。他強調,了解這些技術的潛在風險,可以幫助公眾提高警覺。
團隊使用的毫米波雷達傳感器,與自動駕駛汽車、運動檢測器及 5G 無線網絡所使用的技術相同,能夠測量通過手機耳機播放的語音所產生的微小表面震動。為了解釋這些嘈雜且低質量的數據,他們對開源人工智能語音識別模型 Whisper 進行了調整,運用低秩適應機器學習技術進行訓練。這種方法使他們能夠專門針對雷達數據,重新訓練僅 1% 的 Whisper 參數,從而改善轉錄結果,而無需從頭重建整個模型。
在實驗設置中,研究人員將雷達傳感器放置在距離手機約 3 米的地方,以捕捉微小的震動。隨後,這些數據被輸入到定制的人工智能模型中,產生約 60% 的準確率,涵蓋多達 10,000 個單詞的詞彙。儘管這一結果距離完美尚有距離,研究人員指出,即使是部分關鍵詞的匹配也可能帶來嚴重的安全隱患。共同作者 Mahanth Gowda 提到,這一成果顯示通話的轉錄結果,雖然存在一些錯誤,但相比 2022 年的研究,這已經是一個顯著的進步,因為當時的模型僅能輸出幾個單詞。
Basak 特別強調了這項新興技術所帶來的潛在隱私風險。正如唇讀者可以利用有限的信息來解讀對話,這一模型的輸出與上下文信息結合,也能使人們在幾米之外推斷出電話通話的部分內容。研究的目標在於探索這些工具是否可能被不法分子用來遠程竊聽電話通話。結果顯示,在某些條件下,這一技術確實在技術上是可行的,研究團隊希望這能提高公眾的警覺性,讓人們在進行敏感通話時更加謹慎。
美國國家科學基金會支持了這項研究,研究團隊強調,他們的實驗旨在突顯可能的脆弱性,以防不法分子加以利用。他們期待未來能夠開發出保護措施,以保障個人通話不受這類遠程監控的侵害。這一研究顯示,隨著科技的進步,對於隱私的保護需求也在不斷增加,社會各界應該更加重視這些潛在風險。




