近日,英偉達在台北舉辦的 GTC 活動上公佈了 Cosmos 3,並將其稱為全球首個「完全開放的全能模型」。該模型面向機器人、自動駕駛汽車及視覺智能體,主打基於視覺的推理能力,同時可生成文本、圖像、影片、環境聲音和動作等多模態內容。
英偉達 Cosmos 3 將推動機器人和自動駕駛技術的發展
據介紹,Cosmos 3 採用由推理 Transformer 與生成 Transformer 組成的架構。前者用於理解物體交互、運動以及時空關係,後者則在此基礎上生成影片內容和動作軌跡。英偉達表示,這種設計使模型能夠先理解現實世界中的物理互動,再輸出與之對應的畫面和行為結果,從而提升對複雜環境的建模能力。
英偉達稱,Cosmos 3 主要針對機器人、自動駕駛車輛和視覺代理在真實環境理解上的難題。目前相關訓練數據仍然有限,仿真系統也較為分散,這使得機器在學習物理世界規律時面臨較高門檻。Cosmos 3 的目標是讓模型以更高的物理準確性,原生理解並生成文本、圖像、影片、環境聲音及動作信息。
從應用定位來看,英偉達表示,Cosmos 3 既可作為視覺語言模型使用,也可作為模擬物理環境、預測未來世界狀態的世界模型,還可作為其他世界模型的基礎平台。產品規劃方面,響應精度最高的 Cosmos 3 Super 和輕量版本 Cosmos 3 Nano 已可用,面向邊緣設備實時推理的 Cosmos 3 Edge 將於後續推出。
在技術層面,Transformer 是一類深度學習神經網絡,擅長處理序列數據中的上下文關係,可通過並行計算提升生成效率。英偉達此次將推理與生成能力結合,意在為機器人和自動駕駛系統提供更接近真實物理世界的基礎模型能力。
📬 免費訂閱 TechRitual 科技精選
按「免費訂閱」即同意收到 TechRitual 嘅科技資訊及優惠。可隨時取消訂閱。
