Google 發佈 Gemini 2.5 Flash Native Audio 模型,提升對話音質及指令理解能力

Google 近日為其 Gemini 語音代理進行了顯著升級,將 Gemini 2.5 Flash Native Audio 模型的性能提升,旨在改善其對話音質、用戶指令的理解能力,以及在複雜工作流程中的適應性。最新的 Gemini 2.5 Flash Native Audio 現已在 Google AI Studio 和 Vertex AI 的開發者中推出,同時也適用於 Gemini Live 和 Search Live 用戶。

這些改變使得與 Gemini 的即時對話變得更加流暢,並有助於提升 Google 的即時語音代理的質量。具體而言,新的 Gemini 2.5 Flash Native Audio 12-25 模型改進了多輪對話的質量。在與 Gemini Live 進行多輪對話時,該模型能夠記住之前的對話上下文,從而幫助創造「更具連貫性的對話」。

Google 表示,Gemini 的即時語音代理在理解和執行用戶的複雜指令方面表現得更好。這些升級使得用戶對內容完整性的滿意度提高。換句話說,當與基於 Gemini 2.5 Flash Native Audio 12-25 的即時語音代理互動時,可能不再需要要求與人類代表對話。人工智能模型能夠自行處理更多的多步任務。

整體上,該模型的可靠性有所增強,對開發者指令的遵循率達到 90%,相比舊版的 Gemini 2.5 Flash Native Audio 9-25 增加了六個百分點。在 ComplexFuncBench Audio 基準測試中,最新的 Gemini 2.5 Flash Native Audio 模型以 71.5% 的得分超越了其前身及 OpenAI 的 gpt-realtime 模型。

升級後的 Gemini 2.5 Flash Native Audio 以及即時語音代理現已在 Google AI Studio 和 Vertex AI 中提供。同時,它也在 Gemini API 中以預覽方式推出。Android 用戶也可以在 Gemini Live 和 Search Live 中體驗到該模型的應用。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。