2026-06-01 12:45 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Cosmos 3 如何幫助物理AI在行動前思考

NVIDIA 釋出了 Cosmos 3，這是一個開放的世界基礎模型，結合了視覺推理、多模態生成和動作預測，使機器人、自動駕駛汽車和視覺AI代理能夠理解並預測現實世界中的變化。該模型採用混合變換器架構，能夠生成合成影片、機器人動作資料等，並支援從智慧城市到工業自動化等多種應用。Cosmos 3 在多項基準測試中排名第一，並已開放獲取。

來源NVIDIA Blog作者: Ming-Yu Liu

NVIDIA 在 2026 年 5 月 31 日於臺北國際電腦展（COMPUTEX）的 GTC Taipei 大會上，正式釋出了 Cosmos 3——一款面向物理 AI 的開放世界基礎模型。該模型將視覺推理、多模態生成（涵蓋文本、影片、影像、環境聲音和動作）以及動作預測融合於一體，旨在幫助機器人、自動駕駛汽車（AV）和視覺 AI 代理在行動前更好地理解環境並預測後續狀態。

現實世界瞬息萬變，物理 AI 系統需要理解場景中的因果關係和未來可能性。例如，倉庫中的機器人可能遇到未見過的物體佈局，道路上的 AV 需要應對從停車間隔中突然走出的行人，工廠中的安全系統則要預測叉車的移動方向。然而，在現實中捕捉並復現這些場景既昂貴又難以規模化。Cosmos 3 正是為此而生。

Cosmos 3 採用混合變換器（mixture-of-transformers）架構，首先透過推理塊解析場景中的元素及其關聯，隨後利用生成塊根據這些上下文生成物理上可信的輸出，從合成影片到機器人任務資料均可實現。作為通用基礎模型，Cosmos 3 經過多樣化資料訓練，具備對場景、運動和機器人動作關係的廣泛理解。其原生動作生成能力可輸出關節角度、夾爪位置和軌跡點等數值化動作資料，指導機器人完成拾取和放置等任務。開發者還可對模型進行微調，以適應特定機器人形態、攝像頭佈局或工作空間。

NVIDIA GEAR 團隊正利用 Cosmos 3 開發影片動作模型，幫助具身智慧體在遊戲、模擬和真實機器人環境中學習推理與行動。Agile Robots 則使用 Cosmos 3 為其人形機器人 Thor 3 和 FR3 等實體生成動作條件化資料，以規模化建立多樣化任務軌跡。在實際測試中，經過後訓練的 Cosmos 3 Nano 模型在 RoboLab 平臺的語言引導任務中表現領先，並在 RoboArena 的真實環境 DROID 機器人策略對比中取得佳績。

除了機器人領域，Cosmos 3 還能對智慧城市和運動空間進行推理。它能識別場景中移動的物體，預測路徑交叉和未來狀態，並生成密集描述、場景變化或變體，幫助視覺 AI 代理在工業和基礎設施環境中實現理解、預測與預警的閉環。例如，Linker Vision 利用 Cosmos 3 的視覺語言推理能力分析即時攝像頭流，理解空間上下文，並從數千個影片流中提取洞察並進行根因分析，從而最佳化城市運營。Cosmos 3 在智慧基礎設施場景理解基準 VANTAGE-Bench 和交通異常推理挑戰 TAR 中均排名第一。

對於碰撞等長尾邊緣案例，Cosmos 3 可作為影片基礎模型生成物理上合理的影片序列，幫助人形機器人、機械臂甚至手術機器人安全、可重複地學習罕見場景。這些生成資料可支援合成資料訓練和未來狀態預測，與真實駕駛資料互補。Cosmos 3 的多個變體在 Artificial Analysis 的公開權重排行榜上位居榜首，並在 Physics-IQ、R-Bench 和 PAI-Bench 等世界生成基準測試中同樣名列前茅。

開發者可透過 build.nvidia.com 體驗 Cosmos 3，從 Hugging Face 下載開放模型，利用 GitHub 資源定製並生成合成資料，或部署 NVIDIA NIM 微服務。Cosmos 3 採用 Linux 基金會的 OpenMDW 1.1 許可證，允許開發者在統一的模型中心許可下，自由訓練、修改、貢獻、分發並部署模型材料（包括權重、架構、文件、資料集、基準和程式碼）。