仿人機器人 EMO 展示自學對口型能力 逐步掌握類人發聲方式

美國哥倫比亞大學的研究團隊最近展示了一款名為 EMO 的新型仿人機器人頭部,該設備不僅能做到嘴唇與語音高度同步的「完美對口型」,還可以通過自我學習逐步掌握類人發聲方式,被視為向類《西部世界》式超擬真人形機器人邁出的重要一步。

這款機器人由機器人學博士生胡宇航(Yuhang Hu)、教授霍德·利普森(Hod Lipson)及其團隊開發,本質上是覆蓋柔性硅膠「皮膚」的機器人頭部結構。在硅膠面部下方布置了 26 個微型電機,不同組合驅動時可以拉動面部產生各種表情,同時塑造不同形狀的嘴唇。

為了讓 EMO 學會如何用「表情肌肉」控制嘴型,研究人員首先將其放在鏡子前,讓其在無人干預的情況下隨機做出成千上萬種面部表情,並實時觀察鏡中反饋。

在這一過程中,系統逐步建立起電機組合與視覺表情變化之間的對應關係,這種學習框架被稱為「視覺到動作」(Vision-to-Action,VLA)語言模型。

在掌握「表情—電機」映射後,機器人開始進入「模仿人類說話」的階段。研究團隊為 EMO 輸入了大量人類說話和唱歌的 YouTube 視頻,用於分析不同語音在發出時嘴部應呈現的運動模式,進而學習各類聲音對應的口形特徵。其後,系統將這部分知識與先前獲得的 VLA 模型融合,使機器人在通過合成語音模塊發聲時,能夠同步生成與語音內容相匹配的唇部動作。

目前,這一技術仍然不算完美,EMO 在發出諸如「B」「W」等輔音時仍存在明顯困難,整體口型協調度還有提升空間。研究人員表示,隨著機器人不斷練習說話,其口型控制精度和與人自然對話的流暢度都有望進一步改善。

胡宇航指出,當這種對口型能力與 ChatGPT、Gemini 等對話式人工智能系統結合時,人類與機器人的互動將產生更加「有溫度」的連接效果。他認為,機器人觀看人類對話的次數越多,就越能逼真地模仿那些帶有情感色彩的細微面部動作,而隨著對話「上下文窗口」的延長,這些表情和動作也會變得更加貼合語境。

相關研究論文已發表於《Science Robotics》期刊,更多技術細節由哥倫比亞大學工程學院對外發布。這項工作被視為推動未來社交機器人、虛擬主持與人形服務機器人自然交互能力的一項關鍵進展。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。