Apple SHARP 模型實現 2D 照片至 3D 場景的瞬時轉換技術

Apple 日前發佈的開源模型 SHARP 能夠在不到一秒的時間內,從單張 2D 照片生成照片級逼真的 3D 場景表示。這種技術能力有望對擴增實境 (AR) 和虛擬實境 (VR) 領域產生積極影響。

根據介紹,SHARP 能夠回歸一個描繪場景的 3D 高斯表示參數。該模型透過標準 GPU 的神經網絡生成場景的 3D 表示,生成的 3D 高斯表示可以實時渲染,為鄰近視角生成高分辨率、逼真的圖像。表示具有度量單位,支持絕對比例,因此能夠支援帶度量的攝影機運動。

SHARP 解決了視圖合成中的一個關鍵挑戰。

傳統的 3D 高斯飛濺方法需要從不同視角拍攝數十或數百張圖像,而 SHARP 則能在單一處理步驟中,僅從一張照片生成完整的 3D 高斯場景表示。

Apple 表示,實驗結果顯示 SHARP 在多個數據集上超越了之前的模型,將圖像質量誤差降低了 25-43%,同時速度顯著加快。該公司進一步指出,模型在多個數據集上樹立了新的技術水平。

SHARP 生成的 3D 高斯飛濺以 .ply 文件格式輸出,並與各種公開的 3D 高斯飛濺渲染器兼容,並遵循 OpenCV 坐標慣例。該系統在標準 GPU 上能以每秒超過 100 幀的速度渲染 3D 表示,支持來自鄰近視點的高分辨率視圖。

此外,用戶可以渲染帶有攝影機軌跡的視頻,但目前這需要 CUDA GPU。

相關論文:Sharp Monocular View Synthesis in Less Than a Second

SHARP 現已在 GitHub 上提供下載,可通過命令行界面訪問。更多關於 SHARP 的信息,請訪問 Apple 的 GitHub 代碼庫。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。