Google 現已開始推出 Gemini Omni Flash,這是一款多模態人工智能模型,能夠利用文本、圖像、音頻和視頻輸入生成和編輯影片。此項推出緊隨於 Google I/O 2026 的模型宣佈,標誌著用户現在可以在 Gemini 應用程式、Google Flow 和 YouTube Shorts 中積極使用該系統。該公司表示,該模型旨在將推理和創意生成結合於一個系統中,使用户能夠通過自然對話構建和修改視頻內容。
使用 Gemini Omni Flash,用户可以提示模型從零開始創建視頻或逐步修改現有片段。每個指令都在前一個指令的基礎上進行,允許持續精煉場景而不打破連貫性。Google 表示,這有助於在編輯過程中維持角色、物體和環境的一致性,即使視頻經過多次迭代而發生變化。該模型還支持多輸入工作流程,用户可以結合不同類型的輸入,如文本提示、圖像、視頻片段和音頻參考。這使得單一輸出視頻能夠基於多個參考點進行塑造,而非依賴單一提示。
Google 表示,該系統旨在理解這些輸入之間的關係,並生成連貫的最終場景。此次推出是 Google 更廣泛推動將生成式人工智能整合到其消費者生態系統中的一部分,尤其是專注於短視頻創作的平台。YouTube Shorts 和 YouTube Create 應用程式是第一批引入 Omni Flash 功能的平台,這標誌著人工智能生成工具與內容創作流程之間的更緊密聯繫。
該公司還表示,所有通過該系統生成的輸出將包括 SynthID 水印,以識別人工智能生成的內容。
Gemini Omni Flash 允許自然語言編輯視頻
Gemini Omni Flash 使得用户能夠利用自然語言命令編輯視頻,而無需傳統的編輯工具。用户可以描述更改,例如改變環境、添加物體或改變場景中的動作,模型會相應更新視頻,同時保持整體結構。該系統旨在在編輯過程中維持視覺連貫性,確保角色和物體在多個步驟中保持一致。Google 表示,這使得編輯過程相比傳統視頻製作工具更加迭代和靈活。
該模型還藉助 Gemini 更廣泛的世界知識來提高生成內容的真實感。Google 指出,該模型利用這種理解更準確地模擬物理互動,如運動、光照和環境效果。
從提示到製作的轉變
Google 將 Gemini Omni Flash 定位為向多模態人工智能系統廣泛轉型的一部分,這些系統能夠同時處理創建和推理。該模型設計用來處理多種輸入格式,並生成反映綜合指令而非孤立提示的輸出視頻。該公司的目標是縮短構思與執行之間的差距,使用户能夠通過單一的對話界面從概念轉向完成視頻。隨著時間推移,Google 計劃擴展輸出格式,未來還將支持圖像和音頻。
目前,Gemini Omni Flash 的推出僅限於 Gemini 應用程式中的特定訂閲層級,隨著部署的擴展,預計將會有更廣泛的訪問。
📬 免費訂閱 TechRitual 科技精選
按「免費訂閱」即同意收到 TechRitual 嘅科技資訊及優惠。可隨時取消訂閱。

