Google 於其 Gemini 3.1 系列中推出全新文字轉語音模型 Gemini‑TTS,被官方形容為「至今最豐富現實力的文字轉語音解決方案」。新模型能生成自然流暢、高保真語音,同時允許開發者透過提示詞(prompt)控制語音的情感、節奏與風格,例如在朗讀或對話中精準調整語調、停頓與情感變化。
多語言支援與開發應用
在多語言支援方面,Gemini‑TTS 涵蓋約 70 種語言,包括中文(普通話)、英語、西班牙語、德語、日語等主流語言,模型可自動偵測輸入文字的語言類型,無需手動標註語言類型即可生成對應語音。這項能力讓開發者和企業能在有聲讀物、播客、語音助手、客服機器人、教育應用等場景中使用一套統一 API,為全球用戶提供多語言語音內容。 Google 強調,Gemini‑TTS 與 Gemini 3.
1 系列的其他語音模型(如 Gemini 3.1 Flash Live)協同運作,進一步強化「即時語音體驗」能力。在即時對話、語音翻譯及多模態互動中,系統可在維持低延遲的同時,透過文字提示和語音標記精細控制語音輸出,讓 AI 代理在電話、會議、導航等場景下更接近自然的類人語音互動。
AI 內容聲明:本文由 AI 工具輔助撰寫初稿,經 TechRitual 編輯團隊審閱、修訂及事實查核後發佈。如有任何錯誤或需要更正,歡迎聯絡我們。




