Cosmos 3 如何幫助物理AI在行動前思考
NVIDIA 釋出了 Cosmos 3,這是一個開放的世界基礎模型,結合了視覺推理、多模態生成和動作預測,使機器人、自動駕駛汽車和視覺AI代理能夠理解並預測現實世界中的變化。該模型採用混合變換器架構,能夠生成合成影片、機器人動作資料等,並支援從智慧城市到工業自動化等多種應用。Cosmos 3 在多項基準測試中排名第一,並已開放獲取。
NVIDIA 在 2026 年 5 月 31 日於臺北國際電腦展(COMPUTEX)的 GTC Taipei 大會上,正式釋出了 Cosmos 3——一款面向物理 AI 的開放世界基礎模型。該模型將視覺推理、多模態生成(涵蓋文本、影片、影像、環境聲音和動作)以及動作預測融合於一體,旨在幫助機器人、自動駕駛汽車(AV)和視覺 AI 代理在行動前更好地理解環境並預測後續狀態。
現實世界瞬息萬變,物理 AI 系統需要理解場景中的因果關係和未來可能性。例如,倉庫中的機器人可能遇到未見過的物體佈局,道路上的 AV 需要應對從停車間隔中突然走出的行人,工廠中的安全系統則要預測叉車的移動方向。然而,在現實中捕捉並復現這些場景既昂貴又難以規模化。Cosmos 3 正是為此而生。
Cosmos 3 採用混合變換器(mixture-of-transformers)架構,首先透過推理塊解析場景中的元素及其關聯,隨後利用生成塊根據這些上下文生成物理上可信的輸出,從合成影片到機器人任務資料均可實現。作為通用基礎模型,Cosmos 3 經過多樣化資料訓練,具備對場景、運動和機器人動作關係的廣泛理解。其原生動作生成能力可輸出關節角度、夾爪位置和軌跡點等數值化動作資料,指導機器人完成拾取和放置等任務。開發者還可對模型進行微調,以適應特定機器人形態、攝像頭佈局或工作空間。
NVIDIA GEAR 團隊正利用 Cosmos 3 開發影片動作模型,幫助具身智慧體在遊戲、模擬和真實機器人環境中學習推理與行動。Agile Robots 則使用 Cosmos 3 為其人形機器人 Thor 3 和 FR3 等實體生成動作條件化資料,以規模化建立多樣化任務軌跡。在實際測試中,經過後訓練的 Cosmos 3 Nano 模型在 RoboLab 平臺的語言引導任務中表現領先,並在 RoboArena 的真實環境 DROID 機器人策略對比中取得佳績。
除了機器人領域,Cosmos 3 還能對智慧城市和運動空間進行推理。它能識別場景中移動的物體,預測路徑交叉和未來狀態,並生成密集描述、場景變化或變體,幫助視覺 AI 代理在工業和基礎設施環境中實現理解、預測與預警的閉環。例如,Linker Vision 利用 Cosmos 3 的視覺語言推理能力分析即時攝像頭流,理解空間上下文,並從數千個影片流中提取洞察並進行根因分析,從而最佳化城市運營。Cosmos 3 在智慧基礎設施場景理解基準 VANTAGE-Bench 和交通異常推理挑戰 TAR 中均排名第一。
對於碰撞等長尾邊緣案例,Cosmos 3 可作為影片基礎模型生成物理上合理的影片序列,幫助人形機器人、機械臂甚至手術機器人安全、可重複地學習罕見場景。這些生成資料可支援合成資料訓練和未來狀態預測,與真實駕駛資料互補。Cosmos 3 的多個變體在 Artificial Analysis 的公開權重排行榜上位居榜首,並在 Physics-IQ、R-Bench 和 PAI-Bench 等世界生成基準測試中同樣名列前茅。
開發者可透過 build.nvidia.com 體驗 Cosmos 3,從 Hugging Face 下載開放模型,利用 GitHub 資源定製並生成合成資料,或部署 NVIDIA NIM 微服務。Cosmos 3 採用 Linux 基金會的 OpenMDW 1.1 許可證,允許開發者在統一的模型中心許可下,自由訓練、修改、貢獻、分發並部署模型材料(包括權重、架構、文件、資料集、基準和程式碼)。