小米開源首款 VLA 大模型 提升機器人即時推理能力

小米正式發佈首款開源機器人模型

小米推出 Xiaomi-Robotics-0

小米於近期正式發佈並開源了其首款機器人模型 Xiaomi-Robotics-0。該模型擁有 47 億參數,具備視覺語言理解與高性能實時執行能力,能夠在消費級顯卡上實現實時推理,成功破解了傳統 VLA 模型推理延遲的行業痛點,並在具身智能領域刷新了多項 SOTA 紀錄。 現有的 VLA 模型雖然憑藉其大規模參數擁有出色的泛化能力,但其龐大的推理延遲使得機器人在真實物理世界中的反應相對遲緩。小米此次推出的 Xiaomi-Robotics-0 從架構設計著手實現突破,採用了 MoT 混合架構來打造「大腦 + 小腦」雙核心體系。

這一體系利用多模態 VLM 大模型作為視覺語言大腦,能夠理解人類的模糊指令並捕捉高清視覺中的空間關係;同時,嵌入多層 DiT 作為動作執行小腦,通過生成「動作塊」結合流匹配技術,保障機器人動作的高頻與精準,實現物理靈活性的大幅提升。 為了兼顧模型的常識理解與實操能力,小米設計了跨模態預訓練和後訓練的兩階段訓練體系。跨模態預訓練通過 Action Proposal 機制對齊 VLM 特徵與動作空間,然後凍結 VLM 專注訓練 DiT,使模型在學會操作的同時保留物體檢測、邏輯推理等能力;後訓練則採

用異步推理模式解決真機「動作斷層」問題,配合 Clean Action Prefix 和 Λ-shape Attention Mask 技術,既保證動作軌跡的連續流暢,又讓模型更關注實時視覺反饋,提升對環境變化的響應能力。 目前,小米已正式開源該模型的技術首頁、代碼及模型權重,秉持開源理念推動具身智能技術的行業發展,同時小米機器人團隊也開始人才招募,邀請行業人士共同探索物理智能的邊界。

Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。