Apple 的研究人員最近開發了一種人工智能模型,能夠從單一圖像重建三維物體,並保持不同角度下的反射、光暈及其他效果的一致性。
雖然機器學習中的潛在空間概念並不算新穎,但隨著基於變壓器架構的人工智能模型的迅速增長,這一概念在近年來變得更加受關注。簡單來說,「潛在空間」或「嵌入空間」是描述將信息濃縮為數字表示的過程,並在多維空間中組織這些數字,使得計算各維度之間的距離成為可能。
舉個例子,透過獲取「king」這個詞的數學表示,減去「man」的表示,再加上「woman」的表示,可以得到「queen」的多維區域。這樣的數學表示使得在潛在空間中存儲信息更加高效,並降低了計算成本。
在Apple 的研究中,標題為「LiTo: Surface Light Field Tokenization」,研究人員提出了一種三維潛在表示,能夠聯合建模物體的幾何形狀和視角依賴的外觀。他們創造了一種方法,不僅能夠重建三維物體,還能顯示光線與物體互動的效果。
研究人員指出,過去的工作多專注於重建三維幾何或預測不依賴於視角的外觀,這使得難以捕捉現實中的視角依賴效果。他們的新方法利用 RGB 深度圖像作為表面光場的樣本,將隨機子樣本編碼為緊湊的潛在向量集,從而實現幾何形狀和外觀的統一表示。
更為出色的是,研究人員成功地訓練出這個模型,讓它能夠僅從一張圖像中完成上述所有任務,而非依賴多個不同角度的圖像進行三維重建。整個方法雖然技術性強,但核心概念相對簡單。
首先,編碼器將有關物體的信息壓縮成潛在空間中的緊湊表示,這樣就不需要存儲每一個可見細節,而是學習物體形狀和光線互動的數學描述。接著,解碼器則負責從這個緊湊表示重建完整的三維物體,並生成不同角度下的光影效果。
在訓練這個模型時,研究人員選擇了數千個物體,從150個不同的視角和3個光照條件進行渲染。系統隨機選擇這些樣本的小子集,並將其壓縮為潛在表示,然後訓練解碼器從這些子集重建完整物體及其在不同角度和光照下的外觀。
訓練過程中,系統學會了捕捉物體的幾何形狀及其外觀隨著觀察方向變化的情況。完成後,研究人員又訓練了一個模型,從單一圖像預測對應的潛在表示,然後由解碼器重建完整的三維物體。
Apple 在項目頁面上發布了一些 LiTo 與名為 TRELLIS 的模型的重建比較,值得一看。用戶還可以加載 LiTo 和 TRELLIS 的互動比較,進一步了解這項研究的成果。




