小米 MiMo-V2.5-Pro 開源模型超 DeepSeek-V4-Pro 首日適配 5 家國產晶片

小米 Xiaomi 開源由羅福禮帶隊研發的 MiMo-V2.5 系列模型，採用 MIT 協議，允許商用推理解部與二次訓練，無需額外授權。此前，該系列模型於 4 月 23 日啟動公測，包括 MiMo-V2.5-Pro 與 MiMo-V2.5 兩款模型。模型備更強 Agent 能力，支持 100 萬上下文化，且 Token 效率大幅提升。 MiMo-V2.5-Pro 的完整基準測試結果近日公布，小米 Xiaomi 表示，其在 GDPVal-AA（Elo）、Claw-Eval（pass^3）等多項評測

中超越最新開源的 DeepSeek-V4-Pro 模型，也超過發佈不久的 Kimi K2.6 等主流閉源模型，實現總體最佳。開源首日，MiMo-V2.5-Pro 宣佈已完成與阿里平頭哥、Amazon雲科技、AMD、百度昆侖芯、昇騰科技、沈滬、天數智芯等多個晶片廠商的接入適配。MiMo-V2.5 系列模型同步完成 SGLang 與 vLLM 主流推理解架的 Day 0 適配。

同時，小米 Xiaomi 推出百萬億 Token 創建激勵計劃，計劃 30 天內免費發放總計 100 萬億 Token 額度；推出 Agent 生態共建計劃，目前已與 OpenCode、Hermes Agent、KiloCode 等 Agent 框架廠商展開合作。

模型技術細節公布，評測超越 DeepSeek-V4

由小米 Xiaomi 最新公布的模型卡可知，小米 Xiaomi 此前最強模型 MiMo-V2.5-Pro 是一款擁有 1.02 萬億（1.02T）個參數的混合專家模型，其中 420 億（42B）個激活性參數，基於混合注意力架構，相較前代模型在通用智能能力、複雜軟件工程與長時域任務處理方面均實現顯著提升。 MiMo-V2.5-Pro 繼承 MiMo-V2-Flash 的混合注意力機制與多標記預測（MTP）設計。

局部滑動窗口注意力（SWA）與全局注意力（GA）以 6:1 比例交替使用，窗口大小為 128 個 Token，在長上下文化境下，透過可學習的注意力偏置放置，將關鍵值緩存存儲空間降低了近 7 倍，同時保持性能。一個輕量化 MTP 模塊，採用密集前饋神經網絡（FFN），原生集成用於訓練與推理，輸出吞吐量約提升三倍，並加速強化學習（RL）的部署。以下為 MiMo-V2.

5-Pro 規格資訊：

參數	規格
總參數量	1.02 萬億（1.02T）
激活性參數	420 億（42B）
預訓練 Token	27 萬億（27T）
訓練精度	FP8 混合精度
原生序列長度	32K，擴展至 1M Token

該模型預訓練使用 27 萬億（27T）個 Token，採用 FP8 混合精度，原生序列長度為 32K，上下文化擴展至 1M 個 Token。後訓練遵循 MiMo-V2-Flash 中引入的三階段範式：1、監督式微調，在精選數據對上建立基礎的指令跟隨；2、領域專精訓練，其中不同教師模型分別透過針對特定領域的強化學習進行優化，涵蓋數學、安全、智能工具使用等領域；3、多教師知識蒸餾（MOPD），其中單個學生模型在每位專精教師的 Token 級引導下，從自身發展中學取策略，並將所有教師的能力融合至統一模

型中。再看 MiMo-V2.5，這是一款 3100 億（310B）參數的稀疏 MoE 模型，擁有 150 億（15B）激活性參數，在 48 萬億（48T）個 Token 上進行訓練。其語言主幹框架繼承 MiMo-V2-Flash 的混合滑動窗口注意力機制，並搭載自研預訓練視覺、音頻編碼器，兩類編碼器透過輕量化投影模塊完成跨模塊融合。以下為 MiMo-V2.

5 規格資訊：

參數	規格
總參數量	3100 億（310B）
激活性參數	150 億（15B）
訓練 Token	48 萬億（48T）
上下文窗口	最終達 100 萬 Token

MiMo-V2.5 訓練過程分為五個階段：1、基於多樣化語料開展文本預訓練，搭建大語言模型主幹網絡；2、進行投影層預熱訓練，實現音視頻、視覺投影器與語言模型的對齊融合；3、依託高質量跨模態數據集，開展大規模多模態預訓練；4、執行監督微調與智能體後訓練，在此過程中將上下文窗口從 32K 逐步擴容至 256K，最終達 100 萬 Token；5、最終透過強化學習（RL）與多目標偏好蒸餾（MOPD），進一步強化模型的感知、邏輯推理與智能體執行能力。

從小米 Xiaomi 最新公布的評測結果來看，MiMo-V2.5 在 Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro 等多項評測中大幅超越 DeepSeek 最新發佈的 DeepSeek-V4-Flash。開源首日，完成阿里平頭哥沈滬等 7 家晶片廠商適配。小米 Xiaomi 還公布了晶片生態與推理解架最新適配情況，MiMo-V2.

5-Pro 開源首日完成多個晶片廠商的接入適配： – 阿里平頭哥：基於真武 810E 及全棧自研 AI 軟件棧實現深度適配。 – Amazon雲科技：基於 Trainium2 晶片與 Neuron SDK + vLLM 推理解架完成深度適配，實現開源即全球可用的首日適配。下一代 3nm 製程 Trainium3 將進一步釋放模型性能。 – AMD：依託 ROCm 開源軟件棧提供 Day-0 適配及全面優化支持。

– 百度昆侖芯：透過底層算子優化與軟硬體協同加速，保障模型穩定高效運行。 – 昇騰科技：基於自研腦算 TopsRider 軟件棧深度優化，在昇騰 L600 上完成全量適配。 – 沈滬：基於樞紐 C 系列及全棧自研 MXMACA 軟件棧，實現 Triton 語法至沈滬 GPU 指令集的端到端原生支持。 – 天數智芯：實現 Day 0 級深度適配。此外，MiMo-V2.

5 系列模型同步完成 SGLang 與 vLLM 主流推理解架的 Day 0 適配。免費發放 100 萬億 Token，已與 Hermes Agent 等合作。同時，小米 Xiaomi 還同步推出 MiMo Orbit 計劃，包含兩部分：「百萬億 Token 創建激勵計劃」，與面向 Agent 框架團隊的「Agent 生態共建計劃」。在百萬億 Token 創建激勵計劃方面，小米 Xiaomi 面向全球 AI 用戶免費發放 Token，30 天內發放總計 100 萬億 Token 額度，即完即

止。該計劃採取申請制，透過最高獲取 Max 套裝 Token Plan，包含 16 億 Credits，價值 659 元人民幣，約 HK$717.31。活動時間：北京時間 2026 年 4 月 28 日 00:00 至 5 月 28 日 00:00。 Agent 生態共建計劃方面，小米 Xiaomi 面向全球 Agent 框架團隊提供專項支持，為框架提供 MiMo Token 限免支持，同時參與並贊助框架平台的 AI Hackathon 等生態創新活動。

其目前已與 OpenCode、Hermes Agent、KiloCode 等 Agent 框架廠商展開深度合作。模型權重合集：https://huggingface.co/collections/XiaomiMiMo/mimo-v25 更多細節參考模型 Blog：https://mimo.xiaomi.com/index#blog 百萬億 Token 計劃申請網址：https://100t.

xiaomimimo.com/

AI 內容聲明：本文由 AI 工具輔助撰寫初稿，經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正，歡迎聯絡我們。

小米 MiMo-V2.5-Pro 開源模型超 DeepSeek-V4-Pro 首日適配 5 家國產晶片

模型技術細節公布，評測超越 DeepSeek-V4

推薦內容

關於我們