Gemini 應用程式正式支援音訊檔案

Google 在週一對其 Gemini 驅動的產品進行了三項重大更新：Gemini 應用現在支持音頻文件；搜索功能新增五種語言；NotebookLM 則能生成以博客文章、學習指南、測驗等形式的報告。

根據 Google Labs 和 Gemini 副總裁 Josh Woodward 週一在 X 上發表的帖子，音頻文件的兼容性是 Gemini 應用的「第一需求」。

免費的 Gemini 用戶最多可以上傳 10 分鐘的音頻，每天提供五個免費提示。而 AI Pro 或 AI Ultra 用戶則可以上傳長達三小時的音頻。所有 Gemini 提示均可支持最多 10 個文件，支持各種文件格式，包括 ZIP 文件。

此外，得益於 Gemini 2.5 與搜索的整合，Google 搜索的 AI 模式推出了五種新的語言選項：印地語、印尼語、日語、韓語和巴西葡萄牙語。根據公司的博客：「隨著這一擴展，更多人現在可以使用 AI 模式以其首選語言提出複雜問題，並更深入地探索網絡。」

基於用戶上傳的文檔、文件和其他媒體，Gemini 驅動的 NotebookLM 軟件也獲得了更新，新增了超過 80 種語言的報告樣式。

（儘管 Gemini 應用現在才開始支持音頻，但 NotebookLM 已具備此功能，定位為幫助查找不同格式文件中的模式的研究工具。）

標準報告格式包括學習指南、簡報文檔和博客文章。最新的 NotebookLM 更新中還包括了抽認卡和測驗。用戶可以選擇自創格式並調整報告的結構、語氣和風格。根據公司在 X 上的帖子所述，這一功能「應該在本週末前 100% 可用」。

在過去一個月中，Google 在 AI 相關功能方面的更新頻繁。Gemini 在八月開始自動記錄用戶的細節和偏好，當月免費用戶獲得了 Workspace 的視頻生成軟件 Vids 的訪問權限。九月，Photos 升級到最新的視頻生成軟件 Veo 3，並讓免費用戶能夠根據自己的靜態圖片創建無聲的四秒長視頻。

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

Gemini 應用程式正式支援音訊檔案

十斗

搜尋文章