Apple 發佈 SHARP 模型，單張 2D 圖片轉換 3D 場景僅需 1 秒

名為 SHARP 的模型能夠在不到一秒的時間內，從單張影像重建出真實感十足的 3D 場景。Apple 最近發佈了一項研究，題為《Sharp Monocular View Synthesis in Less Than a Second》，詳細說明了如何訓練這個模型，以便從單張 2D 影像中重建 3D 場景，同時保持現實世界中的距離和比例一致。

Apple 的研究人員介紹 SHARP 時表示，這是一種從單張影像生成真實感視圖的方法。在給定的單張照片中，SHARP 能夠回歸所描繪場景的 3D 高斯表示法的參數。這一過程在標準 GPU 上通過神經網絡的單次前向傳遞完成，且耗時不到一秒。

SHARP 生成的 3D 高斯表示法可以實時渲染，產生高解析度的真實感影像，適用於近距離觀察。這種表示法具有度量性，支持絕對比例的相機運動。實驗結果顯示，SHARP 在多個數據集上實現了穩定的零樣本泛化，並將 LPIPS 減少了 25% 到 34%，DISTS 減少了 21% 到 43%，同時將合成時間縮短了三個數量級。

簡而言之，該模型預測了場景的 3D 表示，並可從不同的近距離視角進行渲染。3D 高斯基本上是一種小而模糊的顏色和光的塊，位於空間中。當數百萬個這樣的塊結合在一起時，便可以重建出從特定視角看起來準確的 3D 場景。大多數高斯塗抹方法需要數十或數百張同一場景的影像，而 Apple 的 SHARP 模型則能夠在單次前向傳遞中從單張照片預測出完整的 3D 高斯場景表示。

為了實現這一點，Apple 在大量合成和真實世界數據上訓練 SHARP，使其能夠學習多個場景中的深度和幾何的共同模式。因此，當給定一張新照片時，該模型可以估計深度，利用所學知識進行精煉，然後在一次傳遞中預測數百萬個 3D 高斯的位置和外觀。

這使得 SHARP 能夠在不需要多張影像或緩慢的逐場景優化的情況下，重建一個合理的 3D 場景。不過，這樣的方式也有一定的權衡。SHARP 準確渲染近距離視角，而不是合成完全未見過的場景部分。這意味著，使用者無法偏離拍攝照片時的視角過遠，因為模型不會合成未見過的場景部分。

這正是 Apple 使得該模型能夠在不到一秒內生成結果的原因，同時也保持了相對穩定性，創造出更可信的結果。SHARP 與 Gen3C 之間的比較也引起了關注，後者是之前較為強大的方法之一。

除了信任 Apple 的說法之外，實際體驗 SHARP 的效果或許更具趣味。因此，Apple 已在 GitHub 上開放了 SHARP，許多使用者也開始分享他們的測試結果。最近幾天，X 使用者分享了一些帖子，其中不乏有趣的成果。

最後，雖然其中一個帖子是一段視頻，這超出了 Apple 原本對 SHARP 的範疇，但卻展示了該模型或其底層方法在未來工作中可能的擴展方向。如果決定嘗試 SHARP，亦可在評論區分享測試結果。

Apple 發佈 SHARP 模型，單張 2D 圖片轉換 3D 場景僅需 1 秒

推薦內容

關於我們