NVIDIA 的 Text-To-Video 讓 GIF 更強了

現在,ChatGPT 和 Midjourney 幾乎已成為主流,下一個重要的 AI 競賽是文本到視頻生成器,Nvidia 展示了一些令人印象深刻的技術演示,這些技術很快就能將您的 GIF 提升到一個新的水平。

Nvidia 的多倫多 AI 實驗室發布了一篇名為「使用潛在擴散模型進行高分辨率視頻合成」的新研究論文和微型網站,展示了即將加入最佳 AI 藝術生成器不斷增長的清單中的令人難以置信的視頻創作工具。

潛在擴散模型(LDM)是一種可以生成視頻而不需要大量計算能力的 AI。Nvidia 表示,其技術是通過構建文本到圖像生成器的工作(在這種情況下是穩定擴散)並在潛在空間擴散模型中添加「時間維度」來實現的。

換句話說,其生成式 AI 可以使靜止圖像以逼真的方式移動並使用超分辨率技術升級它們。這意味著它可以製作長度為 4.7 秒的短視頻,分辨率為 1280×2048,或者在較低的分辨率 512×1024 下製作更長的視頻,例如駕駛視頻。

當我們看到早期的演示(如上圖和下圖)時,我們立刻想到這將如何提高我們的 GIF 遊戲。好吧,還有更大的影響,例如視頻創作的民主化和自動電影改編的前景,但在這個階段,文本到 GIF 似乎是最令人興奮的用例。

像「一個風暴突擊隊員在海灘上吸塵」和「一個玩電吉他的泰迪熊,高清,4K」這樣的簡單提示產生了一些相當可用的結果,即使其中一些創作自然會出現一些瑕疵和變形。現在,這使得像 Nvidia 的新演示這樣的文本到視頻技術最適合用於縮略圖和 GIF。但是,鑑於 Nvidia 在更長場景的 AI 生成中看到的快速改進,我們可能不必等待庫存庫和其他地方的更長的文本到視頻片段。

Nvidia 不是第一家展示 AI 文本到視頻生成器的公司。最近,我們看到 Google Phenaki 首次亮相,展示了基於較長提示的 20 秒片段的潛力。它的演示還展示了一個雖然更粗糙但超過兩分鐘的片段。幫助創建文本到圖像生成器穩定擴散的初創公司 Runway,也在上個月揭示了其 Gen-2 AI 視頻模型。

除了回應像「紐約市閣樓的傍晚陽光透過窗戶」的提示(其結果如上圖所示)之外,它還允許您提供靜止圖像作為生成的視頻基礎,並讓您請求應用於其視頻的樣式。後者也是 Adobe Firefly 最近演示的主題,它展示了 AI 將使視頻編輯變得更加容易的程度。

在像 Adobe Premiere Rush 這樣的程序中,您很快就可以輸入您想在視頻中看到的時間或季節,而 Adobe 的 AI 將完成其餘部分。

Nvidia、Google 和 Runway 最近的演示表明,完全的文本到視頻生成處於一種稍微模糊的狀態,通常會創建出奇怪,夢幻或扭曲的結果。但是,就目前而言,這對我們的 GIF 遊戲來說已經足夠了,而使技術適用於更長的視頻的快速改進無疑就在不久的將來。