中國企業阿里巴巴推出了其首個具身人工智能模型系列,將大型語言模型與現實世界的機器人行動相結合。這個名為 Qwen-Robot 的套件由阿里巴巴的通義實驗室開發,並正與選定的阿里雲企業客户進行試點測試。該套件包括三個專注於導航、操控及世界建模的模型,旨在為在物理環境中運作的機器人提供支持。阿里巴巴表示,這些模型使機器能夠感知、推理並與現實世界互動,推動具身人工智能的發展,超越傳統的聊天機器人應用。
阿里巴巴推出 Qwen-Robot 套件以支持機器人行動
阿里巴巴表示,其 Qwen 系列人工智能模型在理解物理世界方面表現出色。這些模型能夠識別物體、理解空間關係、遵循複雜的視覺指令,以及對現實環境進行推理。例如,一個模型可以理解命令,例如「前往廚房,找到紅色杯子,拿起來並放在架子上」。然而,理解任務與實際執行任務是不同的。儘管視覺語言模型(VLM)可以描述完成任務所需的步驟,但它並不能直接控制機器人的運動。挑戰在於將人類語言和視覺理解與互動物理世界所需的運動行為連接起來。
這一問題之所以困難,是因為機器人訓練數據與互聯網數據差異甚大。來自導航系統、機器手臂、車輛和攝像機的信息格式各異,收集成本也很高。簡單地將這些數據合併往往會造成矛盾,而非提高性能。
為解決此問題,阿里巴巴開發了 Qwen-Robot 套件,其中包括三個專業模型。Qwen-RobotNav 專注於運動和導航,幫助機器人遵循指令、導航至指定位置、追蹤目標,並支持自主駕駛。根據其網站資料,Qwen-RobotManip 專注於物理互動,使機器人能夠抓取、移動和操作物體,並使用從不同機器系統收集的大量訓練數據集。Qwen-RobotWorld 則作為一個世界模型,預測環境可能的變化,幫助機器人理解其行動的可能結果。
這些模型共同旨在使機器人能夠理解指令、與物體互動、導航環境並在現實世界中做出決策。
阿里巴巴的 Qwen-Robot 模型在全球具身人工智能競爭中佔據重要地位
阿里巴巴展示了 Qwen-RobotNav 在一款搭載 NVIDIA Jetson Thor 硬件的 Unitree Go2 四足機器人上,該機器人成功地在一個不熟悉的公寓內導航,無需預載地圖,並根據口頭指令在多個房間之間移動,同時保持 196 毫秒的推理延遲。公司聲稱,Qwen-RobotManip 其機器人操作模型已在超過 38,000 小時的開源數據上進行訓練,涵蓋物體處理及互動任務。
根據阿里巴巴的資料,該模型最近在 RoboChallenge 現實世界機器人基準測試的通用類別中獲得了最高分,過程得分為 59.83,任務成功率為 45%。公司還推出了 Qwen-RobotClaw,這是一個機器人代理框架,允許 Qwen 模型使用 Qwen-Robot 套件作為物理世界工具。在一次演示中,一個代理尋找洗手間,識別出故障標誌,並獨立重新規劃到另一個位置。
阿里巴巴還開放了 Chat2Robot,一個基於瀏覽器的平台,用於測試具身人工智能的互動。隨著全球具身人工智能競爭的加劇,阿里巴巴將其雄心擴展至語言和多模態軟件之外,推出其 Qwen-Robot 模型,這一舉措反映出行業向創建能夠理解和與物理世界互動的人工智能系統的更廣泛轉變。阿里巴巴的舉措正值全球物理人工智能競爭加速之時。在美國,Google DeepMind 正在推進 Gemini Robotics,而 NVIDIA 則通過 Cosmos、Isaac 和 GR00T 擴大其機器人生態系統。
初創企業如 Physical Intelligence、Skild AI 和 Figure AI 也在開發通用機器人智能,據《南華早報》報導。中國則通過將其製造優勢與對自主決策的人工智能軟件日益增長的投資相結合,強化其地位。該行業目前涵蓋了人工智能開發者、機器人公司和電動車製造商。阿里巴巴、騰訊、Unitree、AgiBot、UBTech、Galbot、Spirit AI、GigaAI、小鵬汽車及小米等公司積極追求具身人工智能技術。

