Google 推出 Imagen 4 及 Veo 3 具音訊的 AI 影片生成技術

由人工智能生成的媒體模型已經達到一個重要的里程碑:Google 的 Imagen 4 和 Veo 3 引入了更清晰的圖像、更準確的文本渲染,最關鍵的是,能夠生成包含音頻和對話的視頻。這些升級目前已經通過 Vertex AI 為企業用戶提供,並且透過 Google 的特定平台供消費者使用,簡化了創作流程,為市場營銷人員、電影製作人以及日常創作者開闢了新的可能性。

Imagen 4:更清晰的圖像和更聰明的文本

Imagen 4 是 Google 最新的圖像生成模型,提供了明顯的輸出質量提升。該模型生成的圖像具有更好的清晰度,能夠捕捉到細緻的細節,例如精緻的布料、水滴和動物毛皮。用戶將會觀察到在各種藝術風格中,從照片寫實的場景到抽象的構圖,都能更準確地遵循提示。這個模型的一大亮點是其文本處理的升級:Imagen 4 現在能夠生成包含清晰可讀文字的圖像,使其在創作海報、漫畫和賀卡時不再出現早期版本中常見的亂碼問題。

多語言提示支持意味著全球的創作者可以使用 Imagen 4 以其母語進行創作,消除了進入門檻。這個模型可以通過 Gemini 應用程序、Google 的 Whisk 工具、Vertex AI 獲得,並且已整合到 Google Workspace 產品中,例如 Docs 和 Slides。對於開發者來說,API 使得以可自定義參數進行程序化圖像生成成為可能。

第一步: 要生成圖像,請訪問 Vertex AI 的 Media Studio 或使用 Python SDK。提供詳細的文本提示,描述所需的場景、風格或內容。例如:

第二步: 檢查生成的圖像。Imagen 4 的文本渲染和風格保真度將會非常明顯,特別是在需要特定字體、佈局或視覺主題的提示中。對於多語言用戶來說,提示可以用支持的語言編寫,以生成文化相關的內容。

Imagen 4 也支持多種長寬比和最高達 2K 的分辨率,適合用於印刷、演示和數碼活動。這個模型的「快速變體」即將發布,承諾圖像生成速度比之前版本快十倍。

Veo 3:具同步音頻的 AI 影片生成

Veo 3 解決了 AI 影片的一個重大限制:沉默。到目前為止,人工智能生成的影片缺乏同步音頻,迫使用戶手動添加音樂和對話。Veo 3 透過生成內建音頻軌道的影片來改變這一點,包括環境聲音、音樂,甚至角色對話,並且準確地同步口型。這一發展簡化了內容創作過程,讓快速原型製作和更加沉浸式的故事講述成為可能。

該模型在其前身的基礎上進一步提升,從文本和圖像提示中生成更高質量的視頻。Veo 3 對現實物理、場景組成和電影技巧的理解,能夠產生更真實和視覺連貫的片段。該模型能夠根據詳細的提示生成影片,無論是描述繁忙的城市街道、奇幻的動畫,還是具有對話的歷史劇。

第一步: 要生成影片,請為 Veo 3 提供一個文本提示,描述場景、所需的音頻元素和任何對話。例如:

第二步: 檢查輸出。Veo 3 將提供一個包含同步視覺和音頻的影片文件,包括語音和環境聲音。該模型解釋和執行敘事提示的能力,意味著創作者可以像導演一樣編寫場景,減少後期製作的編輯需求。

Veo 3 目前透過 Gemini 應用程序和 Google 的新 Flow 電影製作工具,為美國的 Ultra 和 Pro 訂閱用戶提供使用,同時也可供企業在 Vertex AI 上使用。Flow 專為故事講述者和電影製作人設計,提供相機控制、場景延伸和資產管理,以保持多個片段之間的視覺和敘事一致性。

對於市場營銷人員和創意團隊來說,Veo 3 的音視頻生成大幅縮短了生產時間和成本。像 Klarna、Kraft Heinz 和 Envato 等公司報告顯示,內容創作時間顯著減少,曾經需要數週的任務現在可以在數小時內完成。

負責任的 AI 內容:安全性、水印和控制

Google 在其生成模型中優先考慮安全性和透明度。所有來自 Imagen 4 和 Veo 3 的輸出都嵌入了 SynthID 水印——這是一種不可察覺的數字簽名,允許未來識別 AI 生成的內容。這能夠防止濫用並支持內容的真實性,隨著合成媒體變得越來越真實,這是日益關注的問題。

這兩個模型都包含可配置的安全過濾器,篩選提示和輸出中的不當或有害內容。組織可以根據品牌標準調整過濾器的嚴格程度,並對圖像和視頻中的人物生成等元素進行細致控制。這些保障措施確保了創作自由不會以倫理或聲譽風險為代價。

開始使用 Google 的生成媒體套件

要開始使用 Imagen 4 或 Veo 3,用戶可以通過 Vertex AI 的 Media Studio、Gemini 應用程序或 Google 的 Flow 工具(適合具備適當訂閱層級的人)訪問這些模型。開發者可以通過可用的 API,將這些模型集成到自定義工作流程中,從而實現大規模的自動化圖像和視頻生成。

對於企業,Google 提供新用戶 $300 的免費信用額度,以便他們試驗這些 AI 能力。文檔和資源可用於入門、提示工程和集成指導。

隨著這些進展,Google 的 Imagen 4 和 Veo 3 模型為 AI 驅動的創意設立了新的基準,使得照片真實、文本準確的圖像和完整製作的音頻視頻能夠被更廣泛的受眾所接觸。

隨著 AI 生成的媒體變得越來越複雜,這些工具為創作者、市場營銷人員和故事講述者提供了全新的方式,讓他們能夠實現自己的想法——無需音響工程師或插畫師。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。