ChatGPT 的開發者 OpenAI 現已推出了 Sora,這是一個將文本提示轉換為視頻的人工智能引擎。可以將其視為 Dall-E(也是由 OpenAI 開發)的升級版,不再僅限於靜態圖像,而是應用於電影製作。
OpenAI Sora 的發布日期和價格
2024 年 2 月,OpenAI Sora 開放給「紅隊成員」使用,這些人的工作是測試產品的安全性和穩定性。OpenAI 現已邀請了一些視覺藝術家、設計師和電影製片人測試視頻生成功能並提供反饋。
OpenAI 表示:「我們早期分享我們的研究進展,與 OpenAI 以外的人合作並獲得他們的反饋,同時讓公眾了解未來可能的 AI 功能。」
換句話說,我們普通人暫時無法使用它。目前還沒有任何關於 Sora 何時對廣大公眾開放,或者我們需要支付多少費用來使用它的跡象。
根據 ChatGPT 的情況,我們可以大致猜測時間表。在 ChatGPT 於 2022 年 11 月向公眾發布之前,該 AI 聊天機器人在同一年早些時候有一個名為 InstructGPT 的前身。此外,OpenAI 的 DevDay 通常在每年 11 月舉行。
因此,Sora 可能會遵循類似的模式,在 2024 年的同一時間向公眾發布。但目前這只是推測,我們將在獲得更清晰的 Sora 發布日期指示後立即更新本頁面。
至於價格,我們同樣沒有任何有關 Sora 可能的價格提示。作為參考,ChatGPT Plus 目前每月價格為 20 美元(約 16 英鎊/30 澳元),可以獲得最新的大型語言模型(LLM)和 Dall-E。
但與使用 Dall-E 生成單張圖像相比,Sora 需要更多的計算資源,而且過程也需要更長的時間。因此,目前還不清楚這篇研究論文能否轉化為一個價格合理的消費產品。
OpenAI Sora 是什麼?
您可能已經熟悉生成式人工智能模型,例如 Google Gemini(用於文本)和 Dall-E(用於圖像),它們可以根據大量的訓練數據生成新的內容。例如,如果您要求 ChatGPT 為您寫一首詩,您得到的回應將基於 AI 已經吸收和分析的大量詩歌。
OpenAI Sora 是一個類似的概念,但用於視頻片段。您提供一個文本提示,例如「夜晚城市街道上的女子」或「汽車穿越森林」,然後您會得到一個視頻。與 AI 圖像模型一樣,當您描述片段中應該包含的內容以及您想要看到的影片風格時,您可以非常具體。
瞭解這一過程的更多細節,可以查看 OpenAI CEO Sam Altman 在 Sora 公開後不久發布的一些示例視頻。Altman 根據社交媒體上提出的提示返回了一些基於文本的視頻,例如「一個戴著尖頂帽子和帶有白色星星的藍色長袍的巫師,從手中發出閃電的咒語,另一只手拿著一本古老的書」。
OpenAI Sora 是如何運作的?
從簡化的角度來看,Sora 背後的技術與您在網絡上搜索狗或貓的圖片的技術相同。如果向 AI 展示足夠多的狗或貓的照片,它將能夠在新的圖像中識別出相同的模式;同樣地,如果您將 AI 訓練成從數百萬個日落或瀑布的視頻中生成視頻,它也能夠生成自己的視頻。
當然,在此背後還有很多複雜的內容,OpenAI 提供了有關其 AI 模型如何工作的深入解析。它通過分析視頻片段來了解它所看到的內容,然後在需要時學習如何生成自己的版本。因此,如果要求 Sora 生成一個魚缸的片段,它將根據它所看到的所有魚缸視頻生成一個近似的片段。它利用所謂的視覺塊,這些是幫助 AI 理解應該放在哪裡以及視頻中不同元素如何互動和進展的較小的構建塊。
Sora 基於擴散模型,AI 從「嘈雜」的回應開始,然後通過一系列的反饋循環和預測計算逐漸達到「清晰」的輸出。您可以在上面的幀中看到這一過程,一個播放在雪地中的狗的視頻從無意義的斑點變成了看起來實際的東西。
與其他生成式人工智能模型一樣,Sora 使用了 Transformer 技術(ChatGPT 中的最後一個 T 代表 Transformer)。Transformer 使用各種複雜的數據分析技術來處理大量數據,它們可以理解被分析內容中最重要和最不重要的部分,並找出這些數據塊之間的上下文和關係。
我們目前不完全了解 OpenAI 從哪裡獲取了訓練數據,它沒有說明使用了哪些視頻庫來支持 Sora,但我們知道它與 Shutterstock 等內容數據庫有合作關係。在某些情況下,您可以看到訓練數據與 Sora 輸出之間的相似之處。
您可以用 OpenAI Sora 做什麼?
目前,Sora 能夠根據文本提示生成長達一分鐘的高清視頻,並且不附帶任何聲音。如果您想看一些可能性的例子,我們已經整理了一個包含 11 個令人驚嘆的 Sora 短片的清單供您參考,其中包括蓬鬆的像皮克斯風格的動畫角色和戴編織帽的宇航員。
OpenAI 表示:「Sora 可以生成長達一分鐘的視頻,同時保持視覺質量和對用戶提示的遵從。」但這還不是全部。它還可以從靜態圖像生成視頻,填補現有視頻中缺失的幀,無縫地將多個視頻拼接在一起。它還可以生成靜態圖像,或者根據提供的片段生成無盡循環。
它甚至可以生成像 Minecraft 這樣的視頻遊戲模擬器,同樣基於大量的訓練數據,教導它 Minecraft 這樣的遊戲應該是什麼樣子。我們已經看到過一個演示,其中 Sora 能夠在類似 Minecraft 的環境中控制一個玩家,同時準確地渲染周圍的細節。
OpenAI 承認 Sora 目前存在一些限制。物理效果不總是合乎邏輯,人物可能會消失、變形或與其他物體融合。Sora 不是在對場景中的個別演員和道具進行建模,而是對像素應該在幀與幀之間的位置進行大量計算。
在 Sora 的視頻中,人物可能以違反物理定律的方式移動,或者細節(例如咬一口餅乾)可能不會從一幀到下一幀被記住。OpenAI 意識到了這些問題並正在努力解決,您可以在 OpenAI Sora 網站上查看一些示例,以了解我們的意思。
儘管存在這些問題,但在未來,OpenAI 希望 Sora 能夠演變成一個現實的物理和數字世界模擬器。未來幾年,Sora 技術可以用於生成虛擬的想像世界供我們探索,或者讓我們完全探索在人工智能中複製的真實場所。
您如何使用 OpenAI Sora?
目前,您無法在沒有邀請的情況下使用 Sora:OpenAI 似乎正在選擇個別的創作者和測試人員,以幫助使其視頻生成的 AI 模型準備好進行全面公開發布。這個預覽期望持續多久,無論是幾個月還是幾年,都還不清楚,但在 AI 項目方面,OpenAI 以前已經顯示出盡可能快速行動的意願。
基於 OpenAI 公開的現有技術(Dall-E 和 ChatGPT),Sora 在正式推出時很可能作為一個 Web 應用程序提供。自從 ChatGPT 推出以來,它變得更加智能並添加了新功能,包括自定義機器人,當 Sora 正式推出時,它可能會遵循相同的路徑。
在此之前,OpenAI 表示希望設置一些安全防護措施:您將無法生成顯示極端暴力、性內容、仇恨圖像或名人肖像的視頻。還計劃通過在 Sora 視頻中包含元數據來對抗錯誤信息,這些元數據表明它們是由 AI 生成的