機器人技術最新熱潮正帶來機器與世界互動方式的革命。過去,機器人專家野心勃勃卻成果有限,他們夢想複製人類身體的複雜度,卻往往花費職業生涯精煉汽車工廠的機械臂。目標是科幻電影中的 C-3P0,結果卻是掃地機器人 Roomba。許多研究者的真正抱負是打造能穿梭世界、適應環境,並安全有益與人互動的機器人。對注重社會者,這類機器可助行動不便者、緩解孤獨,或承擔危險工作;對商業導向者,則意味無薪勞動力來源。
長年的失敗讓矽谷多數人對實用機器人卻步,但局勢已變。雖然機器尚未完全建成,資金卻湧入:2025 年,公司與投資者投入 61 億美元於人形機器人,是 2024 年的四倍(61 億美元,約 HK$475.8 億)。這背後是機器學習互動方式的革命。以家用機械臂專門疊衣為例,傳統方法需編寫規則:檢查布料耐變形度、辨識襯衫領口、精準移動夾具疊袖。若衣物旋轉或扭曲,則調整計劃。
規則數量迅速膨脹,但完整編碼可產生可靠結果。這是機器人學的原始工藝:預測所有可能並預先編碼。
從模擬訓練到大規模數據驅動
約 2015 年,先進技術轉向數位模擬:建模機械臂與衣物,提供成功疊衣時獎勵、失敗時懲罰,讓程式透過數百萬次試錯迭代進化,類似 AI 精進遊戲技能。2022 年 ChatGPT 問世催化熱潮,大型語言模型(LLM)不靠試錯,而是從海量文本預測下個詞彙。類似模型應用於機器人,能吸收圖像、感測器數據與關節位置,預測下一步動作,每秒發出數十個馬達指令。這轉變——依賴吞噬大量數據的 AI 模型——適用於對話、移動或複雜任務,並搭配部署不完美機器以實地學習。
矽谷機器人專家再度大展宏圖。 早在 LLM 時代前,MIT 研究員 Cynthia Breazeal 於 2014 年推出無臂無腿無臉的 Jibo,像燈具般設計,目標為家庭社交機器人,透過眾籌獲 370 萬美元(370 萬美元,約 HK$2886 萬),早鳥價 US$749(約 HK$5840)。Jibo 可自我介紹與兒童跳舞,但僅此而已。公司 2019 年倒閉,事後檢視,它欠缺更好語言能力,當時 Siri 與 Alexa 靠腳本回應,轉語音為文本、分析意圖、拉預設片段,雖迷人卻重複乏味,對社交
機器人成挑戰。如今 AI 語音革命讓對話生動,多家硬體新創嘗試產品,但風險浮現:AI 生成對話易失控,如某些 AI 玩具教兒童找火柴與刀具。
| 關鍵技術里程碑 | 年份 | 描述 |
|---|---|---|
| Jibo 推出 | 2014 | 家庭社交機器人,眾籌成功但語言受限 |
| 模擬訓練興起 | 2015 | 試錯迭代取代規則編碼 |
| OpenAI Dactyl | 2018 | 虛擬訓練機械手,領域隨機化解決模擬與現實落差 |
| ChatGPT 催化 | 2022 | LLM 應用於機器人動作預測 |
| Google RT-1 / RT-2 | 2022-2023 | 基礎模型,97% 已見任務成功率,廣泛圖像訓練解鎖新指令 |
| Covariant RFM-1 | 2024 | 倉庫臂如同事互動,實地數據回饋 |
2018 年,領先實驗室棄腳本轉試錯訓練。OpenAI 的 Dactyl 虛擬訓練機械手操作立方面積骰子,任務如「轉動紅面 O 朝上」。模擬與現實微差易失敗,如顏色或橡膠彈性差異,解決之道為領域隨機化:生成數百萬變異模擬世界,變動摩擦、光線、顏色,讓機器人適應真實。一年後,Dactyl 以同技解魔方(60% 成功率,難亂時 20%)。模擬如今角色減弱,OpenAI 2021 年關機器人部門,近期重啟聚焦人形。
2022 年,Google 機器人團隊記錄 700 項任務影片建 RT-1 基礎模型,輸入視覺與關節數據轉指令,新指令成功率 76%。RT-2 擴及網際網路圖像,如視覺語言模型,讓機器人定位物件,如「將可樂罐放 Taylor Swift 照片旁」。2025 年,Google DeepMind 發 Gemini Robotics,提升自然語言理解。 Covariant 由前 OpenAI 工程師 2017 年分拆,建倉庫實用臂,類 Google 基礎模型,部署 Crate & Barrel 等倉
庫蒐數據。2024 年 RFM-1 如同事:示範網球袖後指令分置,機器人可詢問吸盤建議。2024 年 3 月示範中,指令「歸還香蕉」時錯拾海綿蘋果,共同創辦人 Peter Chen 指欠「回溯」訓練數據,但 Amazon 聘其創辦人並授權模型(Amazon 美國家估 1300 倉庫)。 新資金瞄準人形機器人,便於融入人類空間無需改裝線。Agility 的 Digit 功能導向、非人類頭部設計,已由 Amazon、Toyota 與 GXO(Apple、Nike 客戶)部署,實做挑運疊貨櫃,成首見成
本節省人形例。現 Digit 僅抬 35 磅(約 15.9 公斤),強化即電池重需頻充,且安全規範嚴格。但 Agility 混用 OpenAI 模擬與 Google Gemini 適應環境,十年實驗讓產業大建。




