一組來自 Apple 和香港大學的研究人員發佈了一個新的框架,能夠以更高效的方式實現高解析度的 3D 場景渲染。該研究名為《Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting》,提出了一個名為 LGTM 的新框架。
根據研究,隨著解析度的提高,現有的前向 3D 高斯 Splatting 方法變得運行成本過高,這使得高解析度場景的生成變得不切實際。前向 3D 高斯 Splatting 是一種 AI 模型,快速將一張或幾張圖片轉換為可以從不同角度觀看的 3D 場景。最近,Apple 發佈的開源模型 SPLAT 就採用了這種方法,能夠從單一的 2D 圖像生成 3D 視圖,效果令人印象深刻。
前向 3D 高斯 Splatting 與每個場景優化的方法有所不同,後者是逐步為每個場景單獨構建。雖然這些傳統方法通常需要更長的處理時間,但通常能產生更穩定的結果。相較之下,前向方法運行速度較快,但現有版本在提升解析度時變得困難。
為了解決這一問題,研究人員提出了 LGTM 框架,該框架將幾何複雜性與渲染解析度解耦。換句話說,它將場景的結構與其視覺細節分開,使系統能夠保持幾何形狀的簡單,同時利用紋理來添加高解析度的細節。
LGTM 不是一個獨立的模型,而是基於現有的前向方法,增強了其細節表現,通過在幾何上層疊紋理預測來實現。研究人員採取了兩個步驟:首先,讓模型從低解析度圖像中學習場景結構,然後將輸出與高解析度的真實數據進行對比,這迫使模型學會即使在 2K 或 4K 渲染時仍能生成正確的幾何形狀,避免出現空隙或瑕疵。
其次,他們引入了一個專注於外觀的第二個網絡。該網絡處理高解析度圖像,為每個幾何元素學習詳細的紋理,從而有效地在第一個模型的簡單幾何上層疊精細的視覺細節。最終形成的框架能夠升級現有系統,生成詳細的 4K 場景,避免了早期前向方法在高解析度下計算需求的劇增。
這一研究對 Apple Vision Pro 等產品的未來可能有重要影響。目前,Apple Vision Pro 擁有兩個顯示屏,總共約 2300 萬像素,每隻眼睛獲得的像素數量超過一台 4K 電視。研究指出,前向 3D 高斯 Splatting 在這些高解析度下遇到困難,儘管顯示屏能夠處理,但快速準確地生成場景成為計算瓶頸。
LGTM 有望改善 Apple Vision Pro 的性能,這也可能在需要前向 3D 高斯 Splatting 的情況下,提供更流暢的表現和更清晰的畫面。實際上,這可能轉化為更多機會享受詳細而沉浸的環境或更真實的透視體驗,同時保持計算需求在可控範圍內。
如欲瞭解 LGTM 的實際應用,可以查看項目頁面,該頁面展示了 NoPoSplat、DepthSplat 和 Flash3D 等方法,並對比了有無 LGTM 的效果,涵蓋單視角和雙視角的輸入。通過瀏覽樣本視頻和圖片,可以明顯看出 LGTM 在細節(特別是在紋理和文字方面)上產生了更豐富的結果,並更接近真實數據圖像。




