Apple 日前發佈的開源模型 SHARP 能夠在不到一秒的時間內,從單張 2D 照片生成照片級逼真的 3D 場景表示。這種技術能力有望對擴增實境 (AR) 和虛擬實境 (VR) 領域產生積極影響。
根據介紹,SHARP 能夠回歸一個描繪場景的 3D 高斯表示參數。該模型透過標準 GPU 的神經網絡生成場景的 3D 表示,生成的 3D 高斯表示可以實時渲染,為鄰近視角生成高分辨率、逼真的圖像。表示具有度量單位,支持絕對比例,因此能夠支援帶度量的攝影機運動。
SHARP 解決了視圖合成中的一個關鍵挑戰。
傳統的 3D 高斯飛濺方法需要從不同視角拍攝數十或數百張圖像,而 SHARP 則能在單一處理步驟中,僅從一張照片生成完整的 3D 高斯場景表示。
Apple 表示,實驗結果顯示 SHARP 在多個數據集上超越了之前的模型,將圖像質量誤差降低了 25-43%,同時速度顯著加快。該公司進一步指出,模型在多個數據集上樹立了新的技術水平。
SHARP 生成的 3D 高斯飛濺以 .ply 文件格式輸出,並與各種公開的 3D 高斯飛濺渲染器兼容,並遵循 OpenCV 坐標慣例。該系統在標準 GPU 上能以每秒超過 100 幀的速度渲染 3D 表示,支持來自鄰近視點的高分辨率視圖。
此外,用戶可以渲染帶有攝影機軌跡的視頻,但目前這需要 CUDA GPU。
相關論文:Sharp Monocular View Synthesis in Less Than a Second
SHARP 現已在 GitHub 上提供下載,可通過命令行界面訪問。更多關於 SHARP 的信息,請訪問 Apple 的 GitHub 代碼庫。




