位於舊金山、成立僅兩年的機器人初創公司 Physical Intelligence 近日發佈最新研究,展示其 π0.7 模型能引導機器人執行從未明確訓練過的任務。公司研究人員表示,這項能力令他們意外。這款模型被形容為通往通用機器人智能的早期但重要一步,即能針對陌生任務、以自然語言指導並成功執行。若結果經得起檢驗,機器人 AI 或許正接近大型語言模型式的轉捩點,能力以超出數據預測的方式加速增長。
論文核心主張是組合泛化,即將不同情境習得技能組合,解決模型從未遇到的問題。傳統機器人訓練多為死記硬背:針對特定任務收集數據、訓練專用模型,然後重複。Physical Intelligence 表示,π0.7 打破此模式。公司聯合創辦人兼加州大學柏克萊分校教授 Sergey Levine 指出,一旦模型超越僅重現訓練數據的門檻,能以新方式重組技能,其能力增長將非線性超越數據量。
這類有利擴展特性已在語言和視覺領域出現。
空氣炸鍋演示突顯意外能力
論文最引人注目演示涉及空氣炸鍋,訓練數據中幾乎未見此設備。研究團隊檢查後發現,整個數據集中僅兩段相關片段:一為另一機器人僅推關空氣炸鍋,一來自開源數據集的機器人依指示將塑膠瓶置入。模型竟從這些片段,加上廣泛網路預訓練數據,合成出對設備運作的功能理解。研究科學家 Ashwin Balakrishna 表示,難以追蹤知識來源或預測成敗。但無指導下,模型已能大致嘗試用空氣炸鍋煮番薯;經逐步口頭指示(如指導新員工般),則成功執行。
此指導能力意味機器人可部署新環境、即時改進,無需額外數據或重訓。 研究團隊坦承局限,例如模型尚未能從單一高階指令自主執行複雜多步任務。Levine 說,不能單指示「去烤麵包」,但逐步指導如「打開烤麵包機此部分、按下按鈕」則表現良好。他們亦承認機器人缺乏標準基準,外部驗證不易。公司以自家先前專用模型比較,π0.7 在製作咖啡、摺衣、組裝盒子等複雜任務中匹配表現。
最值得注意之處,是研究人員對結果的驚訝,他們熟知訓練數據卻難預測模型能力。Balakrishna 分享,最近隨機買齒輪組,讓機器人「轉動此齒輪」,竟立即成功。Levine 回憶 GPT-2 生成安第斯獨角獸故事的時刻,同樣意外。這在機器人領域罕見。批評者或指語言模型有整個互聯網數據,機器人難比。但 Levine 預期質疑將聚焦任務「無聊」,非後空翻。他強調,泛化雖不華麗,卻更實用。
論文謹慎描述 π0.7 展現「早期跡象」與「初步演示」。Physical Intelligence 已融資超過 US$1 billion(約 HK$7.8 billion),最近估值 US$5.6 billion(約 HK$43.68 billion),據傳正洽新一輪融資,估值近 US$11 billion(約 HK$85.8 billion)。投資熱度部分源於聯合創辦人 Lachy Groom 的背景,他曾為 Figma、Notion 等天使投資。
公司拒絕評論商業時程。




