Meta 與高校合作開發 BSM-iMagLS 技術提升 VR 空間音頻精度

在增強現實和虛擬現實等應用中,聽覺體驗的質量依賴於高品質的空間音頻,以確保沉浸感,因此準確的雙耳再現成為關鍵因素。可穿戴陣列中僅有少量不規則排列的麥克風在實現與大量麥克風陣列相當的再現質量方面面臨挑戰。雙耳信號匹配(BSM)是一種新近提出的跨信號方法,旨在支持僅使用少數麥克風生成高品質的雙耳信號,並通過幅值最小二乘(MagLS)進一步優化高頻音質。

本·古里安大學和Meta的研究團隊將ILD引入MagLS中,並將其整合到BSM中,從而擴展了BSM的應用。利用基於深度神經網絡的求解器,提出的BSM-iMagLS實現了聯合優化,顯著提高了空間保真度。透過理論分析、不同HRTF和頭戴式陣列幾何形狀的數值模擬以及聆聽實驗,該方法在保持與最先進解決方案相當的精度的同時,大幅降低了ILD誤差,顯示出BSM-iMagLS在增強可穿戴設備雙耳再現方面的潛力。

雙耳音頻再現已成為一個重要的研究領域,尤其在虛擬現實和增強現實中,能夠實現空間沉浸式體驗。雙耳信號通過捕捉和再現三維聲景,使聽者能夠自然感知空間音頻線索,從而增強虛擬環境的真實感,並提升實際應用中的空間意識。

常見的空間音頻再現解決方案包括使用高階音頻(HOA),該方法對特定聽者的頭相關傳遞函數(hHRTF)進行空間濾波以精確計算雙耳信號。然而,儘管HOA技術已成熟並納入MPEG-H Audio等標準,但其對特定陣列幾何形狀(如球面陣列和高空間分辨率)有要求,這限制了其在可穿戴設備和便攜式設備上的應用。

這些方法通常依賴於對聲場參數的估計,如主要聲源的到達方向和混響成分的擴散,並在信號模型中使用相關估計來推導雙耳信號。當模型假設成立時,參數方法能夠獲得高保真度,但其性能對估計誤差非常敏感,並依賴於時頻域稀疏源分佈等假設。

相對而言,當所記錄的聲場信息有限時,無需詳細聲場信息的獨立於信號的方法更具可取性。基於信號獨立波束形成的方法,如新近提出的雙耳信號匹配(BSM),為任意陣列幾何形狀提供了靈活性,並且不需要捕獲場景的先驗信息。BSM方法通過優化將陣列聲傳遞函數與目標HRTF相匹配,實現獨立於信號的雙耳再現。

先前的研究已證明BSM的潛力,但同時也強調其在高頻和退化空間保真度下的有限精度,特別是在頭部運動的情況下。在相關研究中,雙耳再現誤差與雙耳信號(如ILD)的退化有關。研究團隊提出的BSM iMagLS方法通過優化BSM系數而非HRTF的一階球面諧波(SH)系數,適用於任意麥克風陣列。

BSM iMagLS方法的框架已從球形幾何泛化,擴大了高保真雙耳再現的範圍,以涵蓋現實世界中任意麥克風放置的設備。新引入的DiMLS稱為聲級最小二乘(iMagLS),結合雙耳的聯合優化並明確考慮聲級差比,這使得DiMLS成為DMLS的自然擴展,旨在獨立匹配每只耳朵的絕對值,同時保持它們之間的比例。

這種擴展在由於陣列限制而導致的絕對值誤差顯著的頻率範圍內特別有利,同時保持低ILD誤差仍然可行。ILD是聲音定位的關鍵聽覺線索,其不準確會導致感知變化,因為人類聽覺系統依賴相關線索來識別聲源的位置。

相關研究顯示,BSM-iMagLS通過引入ILD優化對先前提出的BSM方法進行了改進。基於DNN的聯合優化框架使得BSM-iMagLS顯著提高了空間精度,這對於使用可穿戴麥克風陣列有效再現雙耳信號至關重要。評估結果表明,BSM-iMagLS一致地減少了ILD誤差,同時保持了與現有MagLS解決方案相當的幅度誤差。相關改進在水平定位至關重要的情況下尤為明顯,通過客觀指標和聽覺實驗驗證了所提出方法的感知優勢。

研究結果強調了平衡大小和ILD精度對於增強雙耳音頻再現的空間感知的重要性。BSM-iMagLS作為一種更準確且感知有效的雙耳渲染技術,特別適合於頭戴式麥克風陣列的限制。

更多 Wearable 消息 / 配件開箱
按此即做速度測試:香港網速測試 SpeedTest HK
https://www.techritual.com/speedtest/


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。