微軟 AI 研究實驗室於星期四宣布推出三個基礎 AI 模型,旨在生成文本、語音和圖像。此次發佈顯示了微軟在多模態 AI 模型方面的持續努力,並與其他競爭對手實驗室展開較量,儘管其仍然與 OpenAI 有著密切關係。
根據公司新聞稿,MAI-Transcribe-1 能夠將 25 種不同語言的語音轉錄為文本,速度是微軟 Azure Fast 服務的 2.5 倍。MAI-Voice-1 則是一個音頻生成模型,可以在一秒內生成 60 秒的音頻,並允許用戶創建自定義語音。MAI-Image-2 是一個視頻生成模型,最初於 3 月 19 日在 MAI Playground 上發佈,現在這三個模型已在 Microsoft Foundry 上推出,且轉錄和語音模型也已在 MAI Playground 可用。
這些模型由微軟的 MAI 超智能團隊開發,該團隊由微軟 AI 首席執行官 Mustafa Suleyman 領導,成立於 2025 年 11 月。Suleyman 在一篇博客文章中表示:「在微軟 AI,我們正在構建以人為本的 AI。我們在創建 AI 模型時有著明確的觀點——把人放在中心位置,優化人們的實際交流方式,針對實際應用進行訓練。」
Suleyman 進一步提到,將會有更多模型在 Foundry 和微軟產品中直接推出。面對日益擁擠的 LLM 市場,微軟希望這些模型的價格會成為一個賣點,相比 Google 和 OpenAI 的模型更具競爭力。
| 模型名稱 | 價格 (美元) | 價格 (港元) |
|---|---|---|
| MAI-Transcribe-1 | $0.36 / 約 HK$ 2.81 | |
| MAI-Voice-1 | $22 / 約 HK$ 171.6 | |
| MAI-Image-2 | $5 / 約 HK$ 39 |
儘管推出了自己的模型,Suleyman 在接受 VentureBeat 訪問時重申了微軟對與 OpenAI 的合作關係的承諾,儘管最近的重新談判使微軟能夠真正追求超智能研究。微軟已經向這家 AI 研究實驗室投資超過 130 億美元,並通過多年合作將其模型整合到各種產品中。
微軟在處理芯片方面也持相似立場,既生產自己的芯片,也從外部供應商採購。這種雙重策略有助於其在科技生態系統中保持競爭力,並在未來的創新中發揮重要作用。




