2026-06-01 13:41 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Nvidia Cosmos 3：機器人終於要接管世界了嗎？

Nvidia釋出的Cosmos 3是一個專為物理世界構建的基礎模型，旨在幫助開發者訓練機器人、自動駕駛系統和視覺AI代理。與傳統的生成式影片模型不同，Cosmos 3著重於理解物體、動作和因果關係，支援六種互動模式，可作為機器人直接控制器或資料工廠，大幅降低機器人訓練的資料成本。

來源Baseten Blog

Nvidia近日釋出了Cosmos 3，這是一款專為物理世界構建的基礎模型，旨在推動機器人和自主系統的發展。與市面上大多數旨在生成美觀影片的模型不同，Cosmos 3的核心在於理解物理世界的運作規律——它關注的是物體之間的相互作用、動作的因果關係，而不僅僅是畫素的排列。該模型被設計為一個統一的“全模態模型”（omni-model），能夠同時處理文本、影像、影片、音訊和動作，並支援包括文本生成影像、文本生成影片、影像生成影片、前向動力學預測、逆向動力學推理和生成動作策略在內的六種功能模式。

這一模型家族包含兩個版本：Cosmos 3 Nano，針對低延遲即時部署進行了最佳化；以及Cosmos 3 Super，追求最大推理能力和生成質量。對於機器人開發者而言，最引人注目的是後三種模式：前向動力學可以根據當前場景預測接下來會發生什麼；逆向動力學則能從觀察結果或影片中恢復出動作序列；策略模式可以直接為智慧體生成行動指令。

Cosmos 3在機器人領域有兩種主要應用路徑。第一種是將其作為“駕駛艙”，讓機器人將觀測資料傳送給Cosmos，由模型即時分析並返回應該執行的動作。這種方法適合研究和快速原型驗證，但由於依賴遠端計算和高延遲，在需要快速響應和離線執行的商業場景中並不理想。第二種路徑更為重要：將Cosmos作為“資料工廠”。開發者可以先收集真實世界的影片（例如機器人、汽車或工廠中的錄影），利用逆向動力學功能為這些影片自動標註動作標籤，再透過文本生成影片或影像生成影片生成大量合成變體，從而建立包含足夠多樣性的訓練資料集。最後，利用這些資料訓練一個小型、高效的機器人策略模型，該模型可以直接部署在機器人的本地硬體上，而無需再呼叫Cosmos本身。這正是Cosmos的價值所在：它並不直接成為機器人，而是幫助製造機器人的“工廠”，大型模型專司資料生產，小型模型負責實際執行。

這一設計理念的核心在於解決機器人領域一個根本性的資料瓶頸。與自然語言處理或計算機視覺等領域擁有海量免費網際網路資料不同，機器人演示資料的獲取成本極其高昂：目前每小時的演示收集需要昂貴的遙操作裝置和專業操作人員，產出僅50-200個演示樣本。而通用機器人策略通常需要數百萬個涵蓋數千種任務的演示。Cosmos透過多種方式打破這一瓶頸：利用逆向動力學將YouTube等無標籤影片轉化為帶標籤的訓練資料；使用文本生成影片來擴充稀少的演示資料集；用前向動力學作為學習型模擬器，減少構建物理模擬器的工作量；以及利用策略模式作為零樣本教師，將知識蒸餾到小型模型中。以開啟門這一看似簡單但實際極為複雜的任務為例，一個能適應各種型別門（把手、推杆、旋轉門等）的機器人，原本需要無數真實演示和昂貴的硬體投資，而Cosmos可以顯著降低這些成本。

當然，Cosmos 3並非萬能。它在純創意影片生成、遊戲引擎內容、含有文字的影像以及科學模擬方面表現不佳。但就物理AI和機器人領域而言，它提供了一種全新的、高效的開發正規化。目前，Cosmos 3 Nano已可在Baseten平臺上透過單張H100 GPU執行，文字生成影片大約需要四分鐘，動作模式在30秒內即可完成。這一工具的釋出，無疑將加速機器人從實驗室走向真實世界的程序。