Google 向美國 AI Ultra 訂閱用戶發佈 Project Genie,推出可生成互動環境的通用世界模型

Google 近日向美國的 AI Ultra 訂閱用戶開放了 Project Genie,這是一款名為 Genie 3 的通用世界模型,能夠生成多樣化的互動環境。這款世界模型可模擬環境的動態,預測其演變及行動對環境的影響。儘管 Google DeepMind 在特定環境(如棋類遊戲)中已有相當的技術積累,但要實現通用人工智能(AGI),需要能夠應對現實世界多樣性的系統。

這個實驗性研究原型要求用戶描述其想要的環境,例如「你的世界看起來如何?」隨後,還需指定探索方式(如步行、騎乘、飛行、駕駛等)和視角(第一人稱或第三人稱)。在指定角色(如人、動物、物體或其他)後,Project Genie 會使用 Nano Banana Pro 創建一幅預覽圖像,或稱為世界草圖,讓用戶在進入前預覽並調整其世界。

用戶可以在 60 秒的時限內「創建世界」。這些照片真實感的世界以 720p 的解析度呈現,互動速率為每秒 20-24 幀。當用戶移動時,Genie 3 會根據用戶的操作實時生成前方路徑,Google 透過「突破性的一致性」模擬物理和互動效果。

此外,用戶還可以調整攝像頭以便更好地與世界互動,並能下載其探索過程的視頻。另一項功能是 Remix Worlds,允許用戶基於現有世界進行重新創作,或在畫廊中探索精心策劃的世界以及隨機生成的靈感。

除了 60 秒的限制外,Google 也警告用戶生成的世界可能不完全真實,或不總是嚴格遵循提示或圖像,甚至不符合現實世界的物理法則。角色控制的流暢性有時也會受到影響,或存在延遲的情況。

Google 正在努力改進 Project Genie,計劃引入「可提示事件」,以在用戶探索時改變世界。這樣的環境提示可以包括「一片無盡的海洋,波濤洶湧,巨大的綠松石色浪潮在劇烈的陽光下破碎,數百隻海鷗在空中飛翔,瞬間遮擋視線。」而角色提示則可能是「一塊白色衝浪板的鼻端,正劃破水面,直指一個巨大的破浪。」

這次演示將幫助 Google 更好地了解用戶如何在人工智能研究和生成媒體的多個領域中使用世界模型。訪問權限將於今日開始向美國的 Google AI Ultra 訂閱用戶開放,並會逐步擴展到其他地區。更廣泛地說,世界模型是 Google DeepMind 實現 AGI 使命的一部分,模擬現實場景在機器人技術、動畫建模及探索歷史場景方面具有實際應用價值。


Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。