華為計算官方宣布,昇騰多模態推理加速套件——MindIE SD項目已正式開源。該項目旨在通過與開源社區協作,將昇騰在多模態推理領域積累的原子能力賦能給廣大開發者,實現在昇騰硬件上高效運行各類前沿多模態模型。
目前,MindIE SD已成功實現對Stable Diffusion系列、OpenSora、混元(Hunyuan)、萬視(Wan)等多模態生成模型的快速適配與昇騰加速。相關模型已在Modelers/ModelZoo倉庫中發佈,並與vllm-omni等開源組件對接。未來,其加速能力將進一步擴展至多模態理解、全模態等更廣泛的場景。
四大關鍵加速特性
MindIE SD項目包含以下四大關鍵加速特性,旨在全方位提升多模態模型在昇騰平台上的推理效率:| 特性 | 描述 |
|---|---|
| 加速插件 | 提供多模態親和加速插件能力,例如支持 block-wise 稀疏 Attention 的稀疏 Attn 插件,以及對 RoPE(旋轉位置編碼)等操作進行融合的融合插件,有效減少計算與內存訪問開銷。 |
| 以存代算 | 提供 DiT module、DiT block、Attention 等多種粒度的緩存(Cache)算法,支持根據不同場景需求選擇加速策略,顯著提升模型運行時性能,並可自定義加速比,利用工具實現緩存算法的快速尋優。 |
| 多卡並行 | 集成了 CFG(Classifier-Free Guidance)並行、USP(Ulysses 並行)等先進並行能力,這些能力已融入加速算子的 API 設計中,開發者僅需進行接口替換即可自動使能,快速適配生成類模型的通用並行算法優化框架,充分利用多卡計算資源。 |
| 量化與稀疏 Attention | 針對昇騰硬件的數據類型和算力分布,提供親和的量化算法,在保證模型效果的前提下提升推理效率並降低資源消耗,同時提供親和的稀疏 Attention 算子,以降低 Attention 計算的複雜度,並支持多模態算子的快速尋優。 |




