Apple 發佈 SHARP 模型,單張 2D 圖片轉換 3D 場景僅需 1 秒

名為 SHARP 的模型能夠在不到一秒的時間內,從單張影像重建出真實感十足的 3D 場景。Apple 最近發佈了一項研究,題為《Sharp Monocular View Synthesis in Less Than a Second》,詳細說明了如何訓練這個模型,以便從單張 2D 影像中重建 3D 場景,同時保持現實世界中的距離和比例一致。

Apple 的研究人員介紹 SHARP 時表示,這是一種從單張影像生成真實感視圖的方法。在給定的單張照片中,SHARP 能夠回歸所描繪場景的 3D 高斯表示法的參數。這一過程在標準 GPU 上通過神經網絡的單次前向傳遞完成,且耗時不到一秒。

SHARP 生成的 3D 高斯表示法可以實時渲染,產生高解析度的真實感影像,適用於近距離觀察。這種表示法具有度量性,支持絕對比例的相機運動。實驗結果顯示,SHARP 在多個數據集上實現了穩定的零樣本泛化,並將 LPIPS 減少了 25% 到 34%,DISTS 減少了 21% 到 43%,同時將合成時間縮短了三個數量級。

簡而言之,該模型預測了場景的 3D 表示,並可從不同的近距離視角進行渲染。3D 高斯基本上是一種小而模糊的顏色和光的塊,位於空間中。當數百萬個這樣的塊結合在一起時,便可以重建出從特定視角看起來準確的 3D 場景。大多數高斯塗抹方法需要數十或數百張同一場景的影像,而 Apple 的 SHARP 模型則能夠在單次前向傳遞中從單張照片預測出完整的 3D 高斯場景表示。

為了實現這一點,Apple 在大量合成和真實世界數據上訓練 SHARP,使其能夠學習多個場景中的深度和幾何的共同模式。因此,當給定一張新照片時,該模型可以估計深度,利用所學知識進行精煉,然後在一次傳遞中預測數百萬個 3D 高斯的位置和外觀。

這使得 SHARP 能夠在不需要多張影像或緩慢的逐場景優化的情況下,重建一個合理的 3D 場景。不過,這樣的方式也有一定的權衡。SHARP 準確渲染近距離視角,而不是合成完全未見過的場景部分。這意味著,使用者無法偏離拍攝照片時的視角過遠,因為模型不會合成未見過的場景部分。

這正是 Apple 使得該模型能夠在不到一秒內生成結果的原因,同時也保持了相對穩定性,創造出更可信的結果。SHARP 與 Gen3C 之間的比較也引起了關注,後者是之前較為強大的方法之一。

除了信任 Apple 的說法之外,實際體驗 SHARP 的效果或許更具趣味。因此,Apple 已在 GitHub 上開放了 SHARP,許多使用者也開始分享他們的測試結果。最近幾天,X 使用者分享了一些帖子,其中不乏有趣的成果。

最後,雖然其中一個帖子是一段視頻,這超出了 Apple 原本對 SHARP 的範疇,但卻展示了該模型或其底層方法在未來工作中可能的擴展方向。如果決定嘗試 SHARP,亦可在評論區分享測試結果。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。