以色列本·古里安大學與 Meta 團隊合作開發改進型 Ambisonics 編碼器提升雙耳音頻體驗

以色列本·古里安大學與 Meta 團隊在空間音頻編碼領域取得了一項突破,他們成功開發出一種專為可穿戴麥克風陣列設計的改進型 Ambisonics 編碼器,通過一種創新的聯合優化框架,顯著提升了雙耳音頻再現的準確性與真實感。這項技術有望徹底改變虛擬現實與增強現實中的聽覺體驗,讓透過頭顯收聽的音頻能準確還原現實世界的三維聲場。

在追求完全沉浸感的 VR/AR 體驗中,視覺固然重要,但聽覺才是營造臨場感的關鍵。雙耳音頻技術通過精確模擬聲音到達左右耳的細微時間差和強度差,欺騙我們的大腦,從而感知聲音來自三維空間中的特定位置。

作為一種強大的聲場編碼技術,Ambisonics 被譽為「音頻領域的全景照片」,能夠將完整的聲場信息編碼為一組標準化的信號通道。其最大的優勢在於格式通用性,編碼後可在不同播放系統靈活重放。

然而,理想的 Ambisonics 編碼通常依賴於結構規整、麥克風數量充足的球形陣列。現實中的可穿戴設備,例如 AR 眼鏡或混合現實頭顯,因尺寸、重量及工業設計的限制,其麥克風陣列往往是非規則、緊湊型甚至稀疏布置的。這種「非理想」的硬件布局導致傳統的 Ambisonics 編碼器在從麥克風信號估算聲場時產生顯著誤差。

雖然有種名為雙耳信號匹配(BSM)的替代技術可以繞過 Ambisonics,直接為特定陣列和 HRTF 優化雙耳輸出,但其犧牲了 Ambisonics 的通用性和靈活性,變得與設備及用戶個體強相關。

研究團隊提出了一個統一的編碼器設計框架,將 Ambisonics 信號匹配(ASM)和雙耳信號匹配(BSM)這兩個原本獨立的目標融合在同一優化問題中。他們構建了一個全新的聯合損失函數,該函數包含兩部分:一部分衡量編碼出的 Ambisonics 信號與理想 Ambisonics 信號之間差異的 ASM 誤差;另一部分衡量由這些 Ambisonics 信號生成的雙耳信號與理想雙耳信號之間的差異的 BSM 誤差。

通過引入一個平衡參數 α(在 0 到 1 之間調節),編碼器設計者可以靈活地決定編碼器的「性格」。

具體來說,當 α 接近 1 時,編碼器優先保證 Ambisonics 系數的高度準確,確保其在不同系統間的兼容性,但可能犧牲最佳的雙耳聽覺效果;當 α 接近 0 時,編碼器全力優化最終的雙耳聽覺體驗,使其盡可能逼真,但生成的 Ambisonics 信號可能不夠標準;而當 α=0.5 時,則在兩者間取得最佳平衡,在可接受的 Ambisonics 精度損失下,換取雙耳體驗的大幅提升。

研究團隊在其論文中詳細闡述了其方法,並進行了一系列嚴謹的仿真實驗,以驗證所提方法的有效性。

這項研究成果為可穿戴消費電子產品的空間音頻處理提供了一條全新的路徑。設備製造商無需在「標準兼容性」和「極致聽感」之間艱難二選一,而是可以通過一個可配置的編碼器,根據不同應用場景的需求,找到最適合的平衡點。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。