Stability AI 發佈全新音頻模型可創作超過六分鐘音樂作品

Stability AI，作為 Stable Diffusion 背後的公司，近日宣佈推出全新音頻模型系列，名為 Stability Audio 3.0。該公司聲稱，其頂級模型能夠生成超過六分鐘的專業級音樂。Stability Audio 3.0 下將推出四款新模型：小型 SFX（459M 參數）、小型（459M 參數）、中型（1.4B 參數）和大型（2.7B 參數）。

這對小型模型適合於設備內的音效和音樂生成，時間可達兩分鐘。而中型和大型模型則能創作長達 6 分 20 秒的完整樂曲，並能保持音樂結構和旋律音調，這是 Stable Audio 2.0（於 2024 年發布）所能生成的時間的兩倍多。

Stability Audio 3.0 系列模型將提升音樂生成能力

Stability AI 將小型 SFX、小型和中型模型以開放權重的形式提供，供任何人使用和修改。2024 年，該公司推出了 Stability Audio Open，允許生成最多 47 秒的音樂。這一新模型系列相比之前的開放版本有了顯著提升。大型模型僅通過 API 和自我託管的付費服務提供。此外，年收入超過 100 萬美元的公司需要獲取企業許可證。許多公司，包括 Google 和 ElevenLabs，亦正推出與音樂生成相關的模型和工具。

然而，正如 Suno 和 Udio 當前的訴訟所證明，數據授權和與音樂標籤的合作可能成為這些服務的長期生存的關鍵。

去年，Stability AI 與 Warner Music Group 和 Universal Music Group 簽署協議，以開發模型和音樂創作工具。該公司表示，其最新的音頻模型系列是基於完全授權的數據構建的。這家 AI 初創公司正在為專業音樂家開發一套新產品，但尚未透露具體功能。Ethan Kaplan，前 Universal Audio 和 Fender 的首席數字官，將加入該公司，負責 Stability 的專業音樂業務。

許多 AI 公司正試圖通過招聘音樂高管來增強其資歷。今年早些時候，Suno 聘請了前 Merlin 首席執行官 Jeremy Sirota 擔任首席商務官，而 ElevenLabs 也從獨立音樂出版商 Kobalt 招募了 Derek Cournoyer 擔任其音樂業務的戰略負責人。

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

Stability AI 發佈全新音頻模型可創作超過六分鐘音樂作品

Stability Audio 3.0 系列模型將提升音樂生成能力

Henderson

搜尋文章