AI 生成的聲音質量已經達到可以用於製作有聲書、播客、朗讀文章以及基本客戶支持的水平。然而,許多企業仍然認為 AI 聲音技術的可靠性不足以投入使用。
為了解決這一問題,兩位麻省理工學院畢業生 Moin Nadeem 和 Nikhil Murthy 創立了 Phonic,這是一家提供端到端聲音技術解決方案的公司,旨在提高合成聲音的可靠性並降低延遲。
Nadeem 和 Murthy 在麻省理工學院相識,已經認識超過七年。當他們去年開始建立 Phonic 時,感到市場上缺乏完整的聲音技術解決方案。
Murthy 在接受 TechCrunch 訪問時表示:“聲音 AI 現在處於一個需要整合不同部分的階段,例如自動語音識別和文本轉語音,然後再整合智能。” 他補充道:“但是,當我們與實際客戶交談時,發現缺乏可擴展的可靠解決方案。”
Nadeem 曾在 MosaicML 工作,該公司於 2023 年被 Databricks 以 13 億美元收購。他表示,許多在聲音 AI 領域的公司(例如 Vapi 和 Rounded)正在創建工作流程來拼湊不同的 AI 模型。
Phonic 採取了不同的方式:該公司在內部進行端到端的模型訓練。Murthy 說,這種方法有幾個優勢。
“擁有這些模型使我們能夠將一些可靠性因素深度整合進模型本身,”他說。“如果不擁有這一層,你只是將不相容的部分拼湊在一起,無法無縫契合。”
Murthy 補充說,Phonic 的方法還使公司能夠以成本效益高的方式托管和運行模型。他聲稱,Phonic 在一系列錄音上訓練其模型,包括帶口音和模糊的語音錄音,以提高模型的穩健性。
目前,Phonic 正在與一小部分合作夥伴合作,包括保險和醫療行業的公司,但計劃在幾個月內廣泛發佈其產品。Nadeem 表示,潛在客戶將能夠通過 Phonic 的網站試用其技術。
Phonic 已經在一輪種子融資中籌集了 400 萬美元 / 約 HK$ 3,120,000,由 Lux 領投,Replit 聯合創始人 Amjad Masad、Hugging Face 聯合創始人 Clem Delangue、Applied Intuition 聯合創始人 Qasar Younis 和 Modal Labs 創始人 Erik Bernhardsson 參與。
Lux Capital 的合夥人 Grace Isford 表示,該公司內部訓練模型的方式吸引了投資公司。
“我們認為 Moin 和 Nikhil 是出色的技術專家,”他說。“他們在麻省理工學院創立了機器學習俱樂部,並在模型訓練方面有著豐富的經驗。此外,他們在聲音 AI 領域結合擴散和專有模型的方法也非常新穎。”
日本電話卡推介 / 台灣電話卡推介
一㩒即做:香港網速測試 SpeedTest HK