Google 發佈 Gemini Omni Flash 以支持多模態 AI 生成及編輯影片

Google 現已開始推出 Gemini Omni Flash，這是一款多模態人工智能模型，能夠利用文本、圖像、音頻和視頻輸入生成和編輯影片。此項推出緊隨於 Google I/O 2026 的模型宣佈，標誌著用户現在可以在 Gemini 應用程式、Google Flow 和 YouTube Shorts 中積極使用該系統。該公司表示，該模型旨在將推理和創意生成結合於一個系統中，使用户能夠通過自然對話構建和修改視頻內容。

使用 Gemini Omni Flash，用户可以提示模型從零開始創建視頻或逐步修改現有片段。每個指令都在前一個指令的基礎上進行，允許持續精煉場景而不打破連貫性。Google 表示，這有助於在編輯過程中維持角色、物體和環境的一致性，即使視頻經過多次迭代而發生變化。該模型還支持多輸入工作流程，用户可以結合不同類型的輸入，如文本提示、圖像、視頻片段和音頻參考。這使得單一輸出視頻能夠基於多個參考點進行塑造，而非依賴單一提示。

Google 表示，該系統旨在理解這些輸入之間的關係，並生成連貫的最終場景。此次推出是 Google 更廣泛推動將生成式人工智能整合到其消費者生態系統中的一部分，尤其是專注於短視頻創作的平台。YouTube Shorts 和 YouTube Create 應用程式是第一批引入 Omni Flash 功能的平台，這標誌著人工智能生成工具與內容創作流程之間的更緊密聯繫。

該公司還表示，所有通過該系統生成的輸出將包括 SynthID 水印，以識別人工智能生成的內容。

Gemini Omni Flash 允許自然語言編輯視頻

Gemini Omni Flash 使得用户能夠利用自然語言命令編輯視頻，而無需傳統的編輯工具。用户可以描述更改，例如改變環境、添加物體或改變場景中的動作，模型會相應更新視頻，同時保持整體結構。該系統旨在在編輯過程中維持視覺連貫性，確保角色和物體在多個步驟中保持一致。Google 表示，這使得編輯過程相比傳統視頻製作工具更加迭代和靈活。

該模型還藉助 Gemini 更廣泛的世界知識來提高生成內容的真實感。Google 指出，該模型利用這種理解更準確地模擬物理互動，如運動、光照和環境效果。

從提示到製作的轉變

Google 將 Gemini Omni Flash 定位為向多模態人工智能系統廣泛轉型的一部分，這些系統能夠同時處理創建和推理。該模型設計用來處理多種輸入格式，並生成反映綜合指令而非孤立提示的輸出視頻。該公司的目標是縮短構思與執行之間的差距，使用户能夠通過單一的對話界面從概念轉向完成視頻。隨著時間推移，Google 計劃擴展輸出格式，未來還將支持圖像和音頻。

目前，Gemini Omni Flash 的推出僅限於 Gemini 應用程式中的特定訂閲層級，隨著部署的擴展，預計將會有更廣泛的訪問。

📬 免費訂閱 TechRitual 科技精選

按「免費訂閱」即同意收到 TechRitual 嘅科技資訊及優惠。可隨時取消訂閱。

Google 發佈 Gemini Omni Flash 以支持多模態 AI 生成及編輯影片

Gemini Omni Flash 允許自然語言編輯視頻

從提示到製作的轉變

📬 免費訂閱 TechRitual 科技精選

Henderson

搜尋文章