Stability AI,作為 Stable Diffusion 背後的公司,近日宣佈推出全新音頻模型系列,名為 Stability Audio 3.0。該公司聲稱,其頂級模型能夠生成超過六分鐘的專業級音樂。Stability Audio 3.0 下將推出四款新模型:小型 SFX(459M 參數)、小型(459M 參數)、中型(1.4B 參數)和大型(2.7B 參數)。
這對小型模型適合於設備內的音效和音樂生成,時間可達兩分鐘。而中型和大型模型則能創作長達 6 分 20 秒的完整樂曲,並能保持音樂結構和旋律音調,這是 Stable Audio 2.0(於 2024 年發布)所能生成的時間的兩倍多。
Stability Audio 3.0 系列模型將提升音樂生成能力
Stability AI 將小型 SFX、小型和中型模型以開放權重的形式提供,供任何人使用和修改。2024 年,該公司推出了 Stability Audio Open,允許生成最多 47 秒的音樂。這一新模型系列相比之前的開放版本有了顯著提升。大型模型僅通過 API 和自我託管的付費服務提供。此外,年收入超過 100 萬美元的公司需要獲取企業許可證。許多公司,包括 Google 和 ElevenLabs,亦正推出與音樂生成相關的模型和工具。
然而,正如 Suno 和 Udio 當前的訴訟所證明,數據授權和與音樂標籤的合作可能成為這些服務的長期生存的關鍵。
去年,Stability AI 與 Warner Music Group 和 Universal Music Group 簽署協議,以開發模型和音樂創作工具。該公司表示,其最新的音頻模型系列是基於完全授權的數據構建的。這家 AI 初創公司正在為專業音樂家開發一套新產品,但尚未透露具體功能。Ethan Kaplan,前 Universal Audio 和 Fender 的首席數字官,將加入該公司,負責 Stability 的專業音樂業務。
許多 AI 公司正試圖通過招聘音樂高管來增強其資歷。今年早些時候,Suno 聘請了前 Merlin 首席執行官 Jeremy Sirota 擔任首席商務官,而 ElevenLabs 也從獨立音樂出版商 Kobalt 招募了 Derek Cournoyer 擔任其音樂業務的戰略負責人。
📬 免費訂閱 TechRitual 科技精選
按「免費訂閱」即同意收到 TechRitual 嘅科技資訊及優惠。可隨時取消訂閱。

