2026-06-19站内改写2 分鐘閱讀更新: 2026-06-19

NVIDIA AI 推出 SpatialClaw：一種免訓練代理，將代碼作為空間推理的動作接口

SpatialClaw 是 NVIDIA 研究團隊推出的一種免訓練框架，通過將代碼作為動作接口，讓視覺語言模型在 20 個空間基準測試中平均準確率達到 59.9%，比現有方法 SpaceTools 高出 11.2 個百分點。

來源MarkTechPost作者: Asif Razzaq

NVIDIA 研究團隊近日發佈了 SpatialClaw，一種無需訓練的空間推理框架，旨在解決視覺語言模型在三維空間理解上的固有弱點。這些模型在判斷物體位置、空間關係以及運動方式方面仍然存在困難。

SpatialClaw 不對模型進行微調，而是通過改變代理調用感知工具的動作接口來提升性能。研究團隊認為，接口是瓶頸所在，而他們的解決方案是將代碼作為動作接口。在 20 個基準測試中，SpatialClaw 的平均準確率達到 59.9%，比最近的智能體 SpaceTools 高出 11.2 個百分點。

SpatialClaw 是一個圍繞有狀態 Python 內核構建的代理循環。內核預加載了輸入幀和一組原語，感知工具作為普通的 Python 可調用對象，其輸出（包括掩碼、深度圖、相機幾何和軌跡）都是普通的 Python 變量。該框架提供六個公共入口點：InputImages 保存採樣幀，Metadata 包含幀率、時長和幀索引，tools 暴露感知和幾何原語，show() 將圖像嵌入代理的下一個上下文，vlm 將查詢分派到獨立的 VLM 會話，ReturnAnswer() 提交最終答案。

兩個核心感知工具是 tools.Reconstruct（基於 Depth Anything 3 提供逐幀深度、相機內參、外參和密集點圖）和 tools.SAM3（基於 SAM 3 通過文本、點或框提示生成圖像或視頻掩碼）。此外，框架還包含輕量級工具：tools.Geometry、tools.Mask、tools.Time、tools.Graph 和 tools.Draw。

研究團隊對比了三種動作接口：單次代碼生成（一次性編寫完整程序並運行，在中途無法修正）、結構化工具調用（通過固定 JSON 模式調用命名工具，無法自由組合輸出）以及 SpatialClaw 的代碼接口（逐步編寫代碼、檢查結果、修正策略）。例如，在測量加熱器與門最近距離時，單次代碼可能錯誤使用質心距離，而 SpatialClaw 通過 scipy.spatial.KDTree 正確計算出 0.9439 米，接近真實值 0.9 米。

在基準測試中，SpatialClaw 在 6 種不同骨幹模型（參數量從 26B 到 397B）上都取得了提升。在 Gemma4-31B 骨幹上，無工具基線為 53.4%，單次代碼為 55.2%，結構化工具調用為 56.7%，而 SpatialClaw 達到 59.9%。與 prior 方法相比，SpatialClaw 遠超 VADAR（40.5%）、pySpatial（47.8%）和 SpaceTools-Toolshed（48.7%）。

動態任務上的提升最為顯著：在 DSI-Bench 上提升 17.6 點，在 MindCube 上提升 15.3 點。通過 LLM 作為裁判的分析顯示，代碼組合貢獻了 52.2% 的勝因，控制流貢獻 19.5%，其餘 28.3% 與接口無關。

每個樣本運行一個五階段循環：規劃、代碼生成、代碼執行、反饋組裝和答案提交。規劃器在不看到圖像的情況下起草策略，主代理每步編寫一個 Python 單元格，靜態 AST 檢查器在執行前拒絕不安全代碼。循環重複直至調用 ReturnAnswer() 或達到 30 步。項目代碼已在 GitHub 開源，支持通過 vLLM 部署骨幹模型，通過 FastAPI GPU 服務運行感知模塊。

SpatialClaw 適用於需要逐步幾何推理的任務，包括機器人技術、多視角檢測、視頻和 4D 分析以及室內場景問答。由於無需訓練，團隊可以直接在已部署的 VLM 上擴展功能，無需新數據或微調。研究團隊指出，感知質量仍是進一步提升的瓶頸，且許可證為非商業用途。