Apple 研究團隊發佈 LGTM 框架，提升 Apple Vision Pro 圖形渲染效率至 4K 水準

一組來自 Apple 和香港大學的研究人員發佈了一個新的框架，能夠以更高效的方式實現高解析度的 3D 場景渲染。該研究名為《Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting》，提出了一個名為 LGTM 的新框架。

根據研究，隨著解析度的提高，現有的前向 3D 高斯 Splatting 方法變得運行成本過高，這使得高解析度場景的生成變得不切實際。前向 3D 高斯 Splatting 是一種 AI 模型，快速將一張或幾張圖片轉換為可以從不同角度觀看的 3D 場景。最近，Apple 發佈的開源模型 SPLAT 就採用了這種方法，能夠從單一的 2D 圖像生成 3D 視圖，效果令人印象深刻。

前向 3D 高斯 Splatting 與每個場景優化的方法有所不同，後者是逐步為每個場景單獨構建。雖然這些傳統方法通常需要更長的處理時間，但通常能產生更穩定的結果。相較之下，前向方法運行速度較快，但現有版本在提升解析度時變得困難。

為了解決這一問題，研究人員提出了 LGTM 框架，該框架將幾何複雜性與渲染解析度解耦。換句話說，它將場景的結構與其視覺細節分開，使系統能夠保持幾何形狀的簡單，同時利用紋理來添加高解析度的細節。

LGTM 不是一個獨立的模型，而是基於現有的前向方法，增強了其細節表現，通過在幾何上層疊紋理預測來實現。研究人員採取了兩個步驟：首先，讓模型從低解析度圖像中學習場景結構，然後將輸出與高解析度的真實數據進行對比，這迫使模型學會即使在 2K 或 4K 渲染時仍能生成正確的幾何形狀，避免出現空隙或瑕疵。

其次，他們引入了一個專注於外觀的第二個網絡。該網絡處理高解析度圖像，為每個幾何元素學習詳細的紋理，從而有效地在第一個模型的簡單幾何上層疊精細的視覺細節。最終形成的框架能夠升級現有系統，生成詳細的 4K 場景，避免了早期前向方法在高解析度下計算需求的劇增。

這一研究對 Apple Vision Pro 等產品的未來可能有重要影響。目前，Apple Vision Pro 擁有兩個顯示屏，總共約 2300 萬像素，每隻眼睛獲得的像素數量超過一台 4K 電視。研究指出，前向 3D 高斯 Splatting 在這些高解析度下遇到困難，儘管顯示屏能夠處理，但快速準確地生成場景成為計算瓶頸。

LGTM 有望改善 Apple Vision Pro 的性能，這也可能在需要前向 3D 高斯 Splatting 的情況下，提供更流暢的表現和更清晰的畫面。實際上，這可能轉化為更多機會享受詳細而沉浸的環境或更真實的透視體驗，同時保持計算需求在可控範圍內。

如欲瞭解 LGTM 的實際應用，可以查看項目頁面，該頁面展示了 NoPoSplat、DepthSplat 和 Flash3D 等方法，並對比了有無 LGTM 的效果，涵蓋單視角和雙視角的輸入。通過瀏覽樣本視頻和圖片，可以明顯看出 LGTM 在細節（特別是在紋理和文字方面）上產生了更豐富的結果，並更接近真實數據圖像。

Apple 研究團隊發佈 LGTM 框架，提升 Apple Vision Pro 圖形渲染效率至 4K 水準

Henderson

搜尋文章

相關文章

Henderson

搜尋文章