Microsoft 發佈三款 AI 基礎模型,支持 25 種語言語音轉文字,速度提升 2.5 倍

微軟 AI 研究實驗室於星期四宣布推出三個基礎 AI 模型,旨在生成文本、語音和圖像。此次發佈顯示了微軟在多模態 AI 模型方面的持續努力,並與其他競爭對手實驗室展開較量,儘管其仍然與 OpenAI 有著密切關係。

根據公司新聞稿,MAI-Transcribe-1 能夠將 25 種不同語言的語音轉錄為文本,速度是微軟 Azure Fast 服務的 2.5 倍。MAI-Voice-1 則是一個音頻生成模型,可以在一秒內生成 60 秒的音頻,並允許用戶創建自定義語音。MAI-Image-2 是一個視頻生成模型,最初於 3 月 19 日在 MAI Playground 上發佈,現在這三個模型已在 Microsoft Foundry 上推出,且轉錄和語音模型也已在 MAI Playground 可用。

這些模型由微軟的 MAI 超智能團隊開發,該團隊由微軟 AI 首席執行官 Mustafa Suleyman 領導,成立於 2025 年 11 月。Suleyman 在一篇博客文章中表示:「在微軟 AI,我們正在構建以人為本的 AI。我們在創建 AI 模型時有著明確的觀點——把人放在中心位置,優化人們的實際交流方式,針對實際應用進行訓練。」

Suleyman 進一步提到,將會有更多模型在 Foundry 和微軟產品中直接推出。面對日益擁擠的 LLM 市場,微軟希望這些模型的價格會成為一個賣點,相比 Google 和 OpenAI 的模型更具競爭力。

模型名稱價格 (美元)價格 (港元)
MAI-Transcribe-1$0.36 / 約 HK$ 2.81
MAI-Voice-1$22 / 約 HK$ 171.6
MAI-Image-2$5 / 約 HK$ 39

儘管推出了自己的模型,Suleyman 在接受 VentureBeat 訪問時重申了微軟對與 OpenAI 的合作關係的承諾,儘管最近的重新談判使微軟能夠真正追求超智能研究。微軟已經向這家 AI 研究實驗室投資超過 130 億美元,並通過多年合作將其模型整合到各種產品中。

微軟在處理芯片方面也持相似立場,既生產自己的芯片,也從外部供應商採購。這種雙重策略有助於其在科技生態系統中保持競爭力,並在未來的創新中發揮重要作用。

AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們

Henderson
Henderson 是 TechRitual Hong Kong 科技編輯,專注報導智能手機、消費電子產品、SIM 卡及流動通訊市場。自加入 TechRitual 以來,累計撰寫數千篇科技報導及產品評測,內容同步發佈至 SINA 及 Yahoo Tech 等主要平台。部分文章由 AI 工具輔助撰寫,經編輯團隊審閱及事實查核後發佈。