中國研發大型 3D 臉部數據庫 助力人形機械人真實表現

隨著科技進步,人形機器人與真實人類之間的區別愈發微妙。來自中國的一項新研究揭示了其中一個原因。研究人員開發了一個大型三維面部數據集,以及一種新的人工智能模型,可以直接從原始三維數據中檢測面部特徵點,而無需依賴二維圖像或數字模板。這項研究針對建造逼真的仿生人和虛擬人類面臨的核心挑戰,即使它們能夠表達情感、識別身份及自然互動。三維面部關鍵點檢測是實現這一能力的重要技術基礎,該技術能夠在三維空間中映射面部的關鍵點。

目前大多數系統依賴二維紋理映射或合成的三維面部數據,這一方法可能會引入誤差,因為數字模型通常與真實人類面部幾何存在差異,且紋理對齊不總是精確。新的研究旨在直接使用真實世界的三維面部掃描來克服這些限制。該研究由中國科學院深圳先進技術研究院的宋展教授與福建工業大學的葉玉平博士共同主導。

為了支持這一努力,研究團隊建立了一個定制的三維和四維面部獲取系統。他們進行了標準化數據收集,並組建了一個包含約 20 萬個高保真三維面部掃描的數據庫。該數據庫還包括多表情三維面部數據集、標準化三維面部特徵點數據集、高精度三維人體數據集和動態四維面部表情數據集。這些多模態生物識別資源共同形成了迄今為止報告的最大規模的真實三維人類面部數據集之一。該數據集被選為福建省 2025 高質量人工智能數據集計劃的一部分。

研究人員並未使用有紋理的圖像來餵養人工智能系統,而是設計了一種曲率融合圖注意力網絡(CF-GAT),以直接處理無序的點雲。點雲代表了面部的幾何結構,作為空間點的集合,並不包含表面紋理。該團隊引入了一種基於幾何的採樣策略,簡化了點集,同時保留了關鍵的曲率信息。這些曲率數據被編碼為明確的幾何先驗,並集成到模型的注意力機制中,使得網絡能夠專注於微小的局部形狀變化,同時建模面部的全局關係。

通過其圖注意力結構,CF-GAT 能夠直接從原始幾何數據中預測三維特徵點坐標。這一方法不依賴於二維紋理或預定義的模板模型,從而減少了對表面外觀的依賴。在測試中,該模型對噪聲的穩健性更強,並在不同面部形狀上表現出更好的泛化能力。它還實現了對細微特徵點的更準確定位,這對於真實表情和精確面部跟蹤至關重要。研究結果突顯了高質量、大規模數據集如何直接影響算法性能的方式。

通過在詳細的真實世界幾何上進行訓練,該模型能夠學習更豐富的空間模式,並更有效地適應現實世界的變異。這一進展有助於開發更具生命力的人形機器人,改進生物識別系統以及創造更具表現力的虛擬化身。隨著仿生人在娛樂、醫療和服務等領域日益普及,潛在的幾何智能可能決定它們在用戶眼中的自然程度。這項研究已發表在《IEEE Transactions on Circuits and Systems for Video Technology》。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。