2026-06-01 13:41 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

Nvidia Cosmos 3：機器人終於要接管世界了嗎？

Nvidia發佈的Cosmos 3是一個專為物理世界構建的基礎模型，旨在幫助開發者訓練機器人、自動駕駛系統和視覺AI代理。與傳統的生成式視頻模型不同，Cosmos 3着重於理解物體、動作和因果關係，支持六種交互模式，可作為機器人直接控制器或數據工廠，大幅降低機器人訓練的數據成本。

來源Baseten Blog

Nvidia近日發佈了Cosmos 3，這是一款專為物理世界構建的基礎模型，旨在推動機器人和自主系統的發展。與市面上大多數旨在生成美觀視頻的模型不同，Cosmos 3的核心在於理解物理世界的運作規律——它關注的是物體之間的相互作用、動作的因果關係，而不僅僅是像素的排列。該模型被設計為一個統一的“全模態模型”（omni-model），能夠同時處理文本、圖像、視頻、音頻和動作，並支持包括文本生成圖像、文本生成視頻、圖像生成視頻、前向動力學預測、逆向動力學推理和生成動作策略在內的六種功能模式。

這一模型家族包含兩個版本：Cosmos 3 Nano，針對低延遲實時部署進行了優化；以及Cosmos 3 Super，追求最大推理能力和生成質量。對於機器人開發者而言，最引人注目的是後三種模式：前向動力學可以根據當前場景預測接下來會發生什麼；逆向動力學則能從觀察結果或視頻中恢復出動作序列；策略模式可以直接為智能體生成行動指令。

Cosmos 3在機器人領域有兩種主要應用路徑。第一種是將其作為“駕駛艙”，讓機器人將觀測數據發送給Cosmos，由模型實時分析並返回應該執行的動作。這種方法適合研究和快速原型驗證，但由於依賴遠程計算和高延遲，在需要快速響應和離線運行的商業場景中並不理想。第二種路徑更為重要：將Cosmos作為“數據工廠”。開發者可以先收集真實世界的視頻（例如機器人、汽車或工廠中的錄像），利用逆向動力學功能為這些視頻自動標註動作標籤，再通過文本生成視頻或圖像生成視頻生成大量合成變體，從而創建包含足夠多樣性的訓練數據集。最後，利用這些數據訓練一個小型、高效的機器人策略模型，該模型可以直接部署在機器人的本地硬件上，而無需再調用Cosmos本身。這正是Cosmos的價值所在：它並不直接成為機器人，而是幫助製造機器人的“工廠”，大型模型專司數據生產，小型模型負責實際執行。

這一設計理念的核心在於解決機器人領域一個根本性的數據瓶頸。與自然語言處理或計算機視覺等領域擁有海量免費互聯網數據不同，機器人演示數據的獲取成本極其高昂：目前每小時的演示收集需要昂貴的遙操作設備和專業操作人員，產出僅50-200個演示樣本。而通用機器人策略通常需要數百萬個涵蓋數千種任務的演示。Cosmos通過多種方式打破這一瓶頸：利用逆向動力學將YouTube等無標籤視頻轉化為帶標籤的訓練數據；使用文本生成視頻來擴充稀少的演示數據集；用前向動力學作為學習型模擬器，減少構建物理模擬器的工作量；以及利用策略模式作為零樣本教師，將知識蒸餾到小型模型中。以打開門這一看似簡單但實際極為複雜的任務為例，一個能適應各種類型門（把手、推杆、旋轉門等）的機器人，原本需要無數真實演示和昂貴的硬件投資，而Cosmos可以顯著降低這些成本。

當然，Cosmos 3並非萬能。它在純創意視頻生成、遊戲引擎內容、含有文字的圖像以及科學模擬方面表現不佳。但就物理AI和機器人領域而言，它提供了一種全新的、高效的開發範式。目前，Cosmos 3 Nano已可在Baseten平台上通過單張H100 GPU運行，文字生成視頻大約需要四分鐘，動作模式在30秒內即可完成。這一工具的發佈，無疑將加速機器人從實驗室走向真實世界的進程。