AI News HubLIVE
站內改寫2 分鐘閱讀

Nvidia Cosmos 3:機器人終於要接管世界了嗎?

Nvidia發佈的Cosmos 3是一個專為物理世界構建的基礎模型,旨在幫助開發者訓練機器人、自動駕駛系統和視覺AI代理。與傳統的生成式視頻模型不同,Cosmos 3着重於理解物體、動作和因果關係,支持六種交互模式,可作為機器人直接控制器或數據工廠,大幅降低機器人訓練的數據成本。

Nvidia近日發佈了Cosmos 3,這是一款專為物理世界構建的基礎模型,旨在推動機器人和自主系統的發展。與市面上大多數旨在生成美觀視頻的模型不同,Cosmos 3的核心在於理解物理世界的運作規律——它關注的是物體之間的相互作用、動作的因果關係,而不僅僅是像素的排列。該模型被設計為一個統一的“全模態模型”(omni-model),能夠同時處理文本、圖像、視頻、音頻和動作,並支持包括文本生成圖像、文本生成視頻、圖像生成視頻、前向動力學預測、逆向動力學推理和生成動作策略在內的六種功能模式。

這一模型家族包含兩個版本:Cosmos 3 Nano,針對低延遲實時部署進行了優化;以及Cosmos 3 Super,追求最大推理能力和生成質量。對於機器人開發者而言,最引人注目的是後三種模式:前向動力學可以根據當前場景預測接下來會發生什麼;逆向動力學則能從觀察結果或視頻中恢復出動作序列;策略模式可以直接為智能體生成行動指令。

Cosmos 3在機器人領域有兩種主要應用路徑。第一種是將其作為“駕駛艙”,讓機器人將觀測數據發送給Cosmos,由模型實時分析並返回應該執行的動作。這種方法適合研究和快速原型驗證,但由於依賴遠程計算和高延遲,在需要快速響應和離線運行的商業場景中並不理想。第二種路徑更為重要:將Cosmos作為“數據工廠”。開發者可以先收集真實世界的視頻(例如機器人、汽車或工廠中的錄像),利用逆向動力學功能為這些視頻自動標註動作標籤,再通過文本生成視頻或圖像生成視頻生成大量合成變體,從而創建包含足夠多樣性的訓練數據集。最後,利用這些數據訓練一個小型、高效的機器人策略模型,該模型可以直接部署在機器人的本地硬件上,而無需再調用Cosmos本身。這正是Cosmos的價值所在:它並不直接成為機器人,而是幫助製造機器人的“工廠”,大型模型專司數據生產,小型模型負責實際執行。

這一設計理念的核心在於解決機器人領域一個根本性的數據瓶頸。與自然語言處理或計算機視覺等領域擁有海量免費互聯網數據不同,機器人演示數據的獲取成本極其高昂:目前每小時的演示收集需要昂貴的遙操作設備和專業操作人員,產出僅50-200個演示樣本。而通用機器人策略通常需要數百萬個涵蓋數千種任務的演示。Cosmos通過多種方式打破這一瓶頸:利用逆向動力學將YouTube等無標籤視頻轉化為帶標籤的訓練數據;使用文本生成視頻來擴充稀少的演示數據集;用前向動力學作為學習型模擬器,減少構建物理模擬器的工作量;以及利用策略模式作為零樣本教師,將知識蒸餾到小型模型中。以打開門這一看似簡單但實際極為複雜的任務為例,一個能適應各種類型門(把手、推杆、旋轉門等)的機器人,原本需要無數真實演示和昂貴的硬件投資,而Cosmos可以顯著降低這些成本。

當然,Cosmos 3並非萬能。它在純創意視頻生成、遊戲引擎內容、含有文字的圖像以及科學模擬方面表現不佳。但就物理AI和機器人領域而言,它提供了一種全新的、高效的開發範式。目前,Cosmos 3 Nano已可在Baseten平台上通過單張H100 GPU運行,文字生成視頻大約需要四分鐘,動作模式在30秒內即可完成。這一工具的發佈,無疑將加速機器人從實驗室走向真實世界的進程。