Microsoft 發佈三款 AI 基礎模型，支持 25 種語言語音轉文字，速度提升 2.5 倍

微軟 AI 研究實驗室於星期四宣布推出三個基礎 AI 模型，旨在生成文本、語音和圖像。此次發佈顯示了微軟在多模態 AI 模型方面的持續努力，並與其他競爭對手實驗室展開較量，儘管其仍然與 OpenAI 有著密切關係。

根據公司新聞稿，MAI-Transcribe-1 能夠將 25 種不同語言的語音轉錄為文本，速度是微軟 Azure Fast 服務的 2.5 倍。MAI-Voice-1 則是一個音頻生成模型，可以在一秒內生成 60 秒的音頻，並允許用戶創建自定義語音。MAI-Image-2 是一個視頻生成模型，最初於 3 月 19 日在 MAI Playground 上發佈，現在這三個模型已在 Microsoft Foundry 上推出，且轉錄和語音模型也已在 MAI Playground 可用。

這些模型由微軟的 MAI 超智能團隊開發，該團隊由微軟 AI 首席執行官 Mustafa Suleyman 領導，成立於 2025 年 11 月。Suleyman 在一篇博客文章中表示：「在微軟 AI，我們正在構建以人為本的 AI。我們在創建 AI 模型時有著明確的觀點——把人放在中心位置，優化人們的實際交流方式，針對實際應用進行訓練。」

Suleyman 進一步提到，將會有更多模型在 Foundry 和微軟產品中直接推出。面對日益擁擠的 LLM 市場，微軟希望這些模型的價格會成為一個賣點，相比 Google 和 OpenAI 的模型更具競爭力。

模型名稱	價格 (美元)	價格 (港元)
MAI-Transcribe-1	$0.36 / 約 HK$ 2.81
MAI-Voice-1	$22 / 約 HK$ 171.6
MAI-Image-2	$5 / 約 HK$ 39

儘管推出了自己的模型，Suleyman 在接受 VentureBeat 訪問時重申了微軟對與 OpenAI 的合作關係的承諾，儘管最近的重新談判使微軟能夠真正追求超智能研究。微軟已經向這家 AI 研究實驗室投資超過 130 億美元，並通過多年合作將其模型整合到各種產品中。

微軟在處理芯片方面也持相似立場，既生產自己的芯片，也從外部供應商採購。這種雙重策略有助於其在科技生態系統中保持競爭力，並在未來的創新中發揮重要作用。

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

Microsoft 發佈三款 AI 基礎模型，支持 25 種語言語音轉文字，速度提升 2.5 倍

Henderson

搜尋文章

相關文章

Henderson

搜尋文章