Gemini 應用程式正式支援音訊檔案

Google 在週一對其 Gemini 驅動的產品進行了三項重大更新:Gemini 應用現在支持音頻文件;搜索功能新增五種語言;NotebookLM 則能生成以博客文章、學習指南、測驗等形式的報告。

根據 Google Labs 和 Gemini 副總裁 Josh Woodward 週一在 X 上發表的帖子,音頻文件的兼容性是 Gemini 應用的「第一需求」。

免費的 Gemini 用戶最多可以上傳 10 分鐘的音頻,每天提供五個免費提示。而 AI Pro 或 AI Ultra 用戶則可以上傳長達三小時的音頻。所有 Gemini 提示均可支持最多 10 個文件,支持各種文件格式,包括 ZIP 文件。

此外,得益於 Gemini 2.5 與搜索的整合,Google 搜索的 AI 模式推出了五種新的語言選項:印地語、印尼語、日語、韓語和巴西葡萄牙語。根據公司的博客:「隨著這一擴展,更多人現在可以使用 AI 模式以其首選語言提出複雜問題,並更深入地探索網絡。」

基於用戶上傳的文檔、文件和其他媒體,Gemini 驅動的 NotebookLM 軟件也獲得了更新,新增了超過 80 種語言的報告樣式。

(儘管 Gemini 應用現在才開始支持音頻,但 NotebookLM 已具備此功能,定位為幫助查找不同格式文件中的模式的研究工具。)

標準報告格式包括學習指南、簡報文檔和博客文章。最新的 NotebookLM 更新中還包括了抽認卡和測驗。用戶可以選擇自創格式並調整報告的結構、語氣和風格。根據公司在 X 上的帖子所述,這一功能「應該在本週末前 100% 可用」。

在過去一個月中,Google 在 AI 相關功能方面的更新頻繁。Gemini 在八月開始自動記錄用戶的細節和偏好,當月免費用戶獲得了 Workspace 的視頻生成軟件 Vids 的訪問權限。九月,Photos 升級到最新的視頻生成軟件 Veo 3,並讓免費用戶能夠根據自己的靜態圖片創建無聲的四秒長視頻。


十斗https://www.techritual.com/author/tenten/
十斗是 TechRitual Hong Kong 科技記者,擁有計算機科學與工程學位,專注報導 AI 人工智能、Google、機器學習及數據科學領域。持續追蹤全球 AI 產業動態,為讀者提供深入淺出的科技分析。