Google 公佈 Gemini 3.5 Live Translate 提供流暢自然的語音翻譯

Google 官方宣布推出 Gemini 3.5 Live Translate,這是一款最新的音頻模型,能夠提供超過 70 種語言的近實時語音翻譯。

Gemini 3.5 Live Translate 的功能與特點

根據 Google 的說法,這個模型能夠自動檢測超過 70 種語言,並生成流暢、自然的翻譯語音,保留講者的語調、語速和音高。與傳統的逐句翻譯系統不同,Gemini 3.5 Live Translate 能夠持續生成語音,平衡等待上下文以提高質量和立即翻譯以保持與講者同步之間的取捨。這使得翻譯過程中不會出現尷尬的停頓,並在整個會議過程中僅滯後幾秒。

「今天,我們邁出了下一步,推出 Gemini 3.5 Live Translate,這是我們最新的音頻模型,用於實時語音翻譯。」

Google

Gemini 3.5 Live Translate 的應用場景

Gemini 3.5 Live Translate 現已在 Google 產品中推出,開發者可通過 Gemini Live API 和 Google AI Studio 獲得公共預覽,而企業用戶則可在 Google Meet 中進行私人預覽。普通用戶則可通過 Android 和 iOS 的 Google Translate 應用使用這項功能。

「Gemini 3.5 Live Translate 處理實時流式語音,使跨語言的連接更加無縫。」

Google

用戶體驗的提升

在 Google Meet 中,語音翻譯將使用 Gemini 3.5 Live Translate,這將改善用戶體驗,包括提供超過 70 種語言的支持,並擴展到超過 2000 種語言組合的會議中。這一更新將在本月開始向選定的 Google Workspace 商業客戶推出,並計劃在今年稍後進行更廣泛的推廣。

「用戶可以通過 Google Translate 應用的實時翻譯功能,體驗到更流暢的翻譯,並在不需要耳機的情況下直接通過手機聽取翻譯。」

Google

此外,所有由該模型生成的音頻都會使用 SynthID 進行水印處理,確保 AI 生成的內容可以被檢測,以防止錯誤信息的傳播。

資料來源:Google 官方公告

十斗
十斗

十斗是 TechRitual Hong Kong 科技記者,擁有計算機科學與工程學位,專注報導 AI 人工智能、Google、機器學習及數據科學領域。持續追蹤全球 AI 產業動態,為讀者提供深入淺出的科技分析。