隨著 Figure 公司推出新的 Helix 模型,折疊衣物的任務可能很快就會成為過去式。在公司最近分享的一段視頻中,這項系統驅動著一個類人機器人,仔細地逐一折疊毛巾,並將其整齊地堆放在籃子裡。Helix 是一種通用的視覺-語言-行動(VLA)模型,將感知、語言理解和學習控制融合在一起,旨在解決機器人學中的多個長期挑戰。根據 Figure 公司的說法,Helix 代表了一系列首次的突破,向著能夠無縫解讀周圍環境、理解指令並以人類般的適應性執行複雜任務的機器人邁出了重要一步。
在 2025 年 3 月的一段視頻中,Figure 展示了使用強化學習的過程,Helix 使得類人機器人的行走更加平穩自然,取代了傳統的僵硬機械步態,轉而以流暢的動作前進。在視頻中,Figure 的 02 類人機器人被指派進行毛巾折疊的任務。它小心翼翼地接近毛巾堆,耐心地一一拿起毛巾。機器人仔細地處理每條毛巾,大致平整布料,然後將其折疊成相對整齊的形狀。儘管它的動作穩定,但並不完美;偶爾需要進行一次折疊調整然後才繼續。它將毛巾一一放入籃子中,雖然整體堆疊尚可,但更顯示出它專注於完成任務而非追求絕對精確。
Helix 的突出功能是多機器人協作,它可以同時在兩個機器人上運行,讓它們能夠共同處理涉及不熟悉物品的長期任務。配備 Helix 的機器人能夠處理多種小型家居物品,甚至是它們以前未曾遇到過的物體,並通過自然語言提示進行直觀操作。該系統使用一組神經網絡權重來學習多種行為,例如拾取和放置、操作抽屜和冰箱,以及實現跨機器人互動,從而消除了針對特定任務的微調需求。根據 Techeblog 的報導,這種統一的學習方法簡化了開發過程,同時擴展了靈活性。
Helix 完全基於嵌入式低功耗 GPU 運行,已針對實際應用進行優化,使其在商業使用上既高效又實用。通過結合細緻的控制能力、適應性和低功耗運行,Helix 為通用類人機器人在複雜的日常環境中設立了新的標杆。Figure 公司指出,現有的機器人系統經常難以適應新任務,通常需要大量編程或重複演示。為了解決這一問題,Figure 創建了 Helix,利用 VLM 使機器人能夠遵循口語命令並根據需要概括行動。
Helix 由兩個基本組件組成,能夠高效且靈活地控制整個類人上半身:系統 1(S1)是一種快速的視覺運動策略,能實時將系統 2(S2)的見解轉化為行動,而系統 2 是一個較慢的、經過互聯網預訓練的 VLM,用於語言和場景理解。這種分離允許 S2 管理複雜的推理,而 S1 則確保準確、及時的執行。根據 Figure 的說法,Helix 解決了機器人學中的長期挑戰,包括在速度與泛化之間取得平衡、擴展到高維度行動以及使用標準模型保持架構簡單。
S1 和 S2 的分離使每個系統能夠獨立升級,而不必共享觀察或行動空間。約 500 小時的遙控行為被用於訓練,並且一個自動標註的 VLM 生成了自然語言指令。Helix 的設計過程將視覺輸入轉化為潛在表示,結合一個擁有 8,000 萬參數的變壓器進行控制和一個 70 億參數的 VLM,這種方法改善了適應性,加快了實用機器人應用的學習速度。




