一間總部位於新加坡的機器人公司宣稱,其最新突破使機器人接近人類的靈巧程度。Sharpa 發佈了一款能夠自動剝蘋果的機器人,配備有雙手,這一成就解決了機器人領域中最具挑戰性的問題之一:精確的接觸式操作。這款機器人由一個名為 MoDE-VLA(Mixture of Dexterous Experts)的新系統驅動,結合了視覺、語言、觸覺和力感測,能夠執行複雜的動作。人類不再需要微觀管理每根手指,而是提供高層次的指導,讓人工智能負責協調。根據該公司的說法,這種混合方法可能標誌著機器人安全執行家庭和工作場所中精細現實任務的重要一步。
在去年 12 月,Sharpa 將其旗艦靈巧手臂 SharpaWave 推入量產,該手臂提供 22 個活動自由度,並聲稱能達到接近人類的操作和控制能力。機器人靈巧性已隨著視覺-語言-行動(VLA)模型的進步迅速提升,使機器能夠處理日常任務,例如整理衣物或拾取物件。然而,這些系統在使用基本夾具進行簡單的擺放行動時受到了限制。像剝蘋果這樣的人類任務對機器人來說仍然困難,因為這需要精確的協調、力量控制和不斷的手內調整。
該公司指出,這項任務涉及 63 個自由度的操作,並需在多種技能之間切換,整合多樣的感官輸入,而傳統模型仍然難以可靠地管理這些挑戰。Sharpa 的新研究提出了一種新解決方案,這種方法結合了一個共享自主的“副駕駛”,協助進行精細的手指動作,以及一種融合視覺、觸覺和力感數據的專家混合架構。這使得機器人能夠更穩定地執行複雜的雙手任務。
為了克服靈巧機器人的關鍵限制,研究人員引入了一個兩部分的框架:IMCopilot 和 MoDE-VLA。IMCopilot(In-hand Manipulation Copilot)是一組經過增強學習訓練的微技能,旨在簡化複雜的手指動作。在數據收集期間,它實現了共享自主—人類控制大範圍的手臂運動,而 IMCopilot 負責如旋轉蘋果等精細的手內任務。在執行過程中,它作為機器人在需要精細操作時可調用的低層技能。
MoDE-VLA 解決了整合多樣感官輸入的挑戰。它不再將所有數據統一處理,而是通過專門的通道處理視覺、力量和觸覺信號。使用專家混合的方法,它動態啟動相關模塊,例如檢測接觸事件,並實時精煉行動。這使得機器人在複雜的操作任務中能夠更精確和可靠地響應。
研究人員對其框架在四項日益複雜的任務中進行了評估:齒輪組裝、充電器插入、管道重組和蘋果剝皮,顯示出穩定的性能提升。MoDE-VLA 在接觸密集的操作場景中顯著優於基準模型,成功率翻倍。在最具挑戰性的測試中—蘋果剝皮,系統達到 73% 的剝皮完成率,成功執行了多次剝皮和旋轉的循環。該框架在充電器插入等任務中也表現出高精度,這些任務對於毫米級的準確度至關重要。在這裡,專注於力量的專家能夠提供在僅依賴視覺模型時通常無法成功的合規性。
Sharpa 聲稱其 SharpaWave 22-DoF 靈巧手進一步增強了這些能力,透過其先進的感測整合和控制架構,結合 6-DoF 力感測和來自十個指尖的觸覺反饋,能夠檢測微小的互動提示,如滑動或阻力。該系統與視覺-語言-行動的基礎架構整合,使得操作更加靈活和適應。此外,IMCopilot 系統使機器人能夠將複雜的手內協調工作卸載給經過增強學習訓練的微技能,從而解決了傳統數據收集的挑戰。在 MoDE-VLA 的運行下,系統根據實時的物理反饋不斷改進其行動,顯著提升靈巧任務的表現。透過將複雜、高頻率的手指動作委派給專門的副駕駛,並利用專家來解釋觸覺,為機器人能夠以人類相同的靈巧性執行複雜的家庭雜務和工業組裝鋪平了道路。




