Apple 開源 SHARP 模型 可快速生成高保真 3D 場景

近日,Apple 發佈了一項名為 SHARP(Sharp Monocular View Synthesis)的開源人工智能模型。該技術僅需一張普通 2D 照片,即可在不到一秒內生成具備真實尺度感的高保真 3D 場景。相關研究成果已以論文《Sharp Monocular View Synthesis in Less Than a Second》的形式公開,並在 GitHub、Hugging Face 及 Apple 官方項目頁面同步上線,引發開發者社區廣泛關注。

據 Apple 研究人員介紹,S

HARP 通過單次神經網絡前向推理,在標準 GPU 上快速回歸出一個基於 3D 高斯點陣(3D Gaussian Splatting)的場景表示。該表示不僅保留了原始圖像的色彩與光照細節,還能支持實時渲染,從鄰近視角生成高分辨率、視覺連貫的新視圖。尤為關鍵的是,該模型輸出的 3D 結構具有度量一致性,即包含真實世界中的絕對尺度信息,可支持符合物理規律的相機移動。

傳統 3D 高斯重建方法通常依賴數十甚至上百張多視角圖像進行優化,而 SHARP 僅憑單張圖像即可完成重建,其背後依托於在大量合成與真實數據上訓練所得的深度與幾何先驗知識。

模型首先估計初始深度圖,再結合學到的場景結構規律,一次性預測數百萬個 3D 高斯點的位置、顏色與協方差參數。不過,SHARP 目前主要適用於原拍攝視角附近的視點合成,尚無法可靠生成完全未見過的場景區域。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。