NVIDIA AI 推出 SpatialClaw:一種免訓練代理,將代碼作為空間推理的動作接口
SpatialClaw 是 NVIDIA 研究團隊推出的一種免訓練框架,通過將代碼作為動作接口,讓視覺語言模型在 20 個空間基準測試中平均準確率達到 59.9%,比現有方法 SpaceTools 高出 11.2 個百分點。
NVIDIA 研究團隊近日發佈了 SpatialClaw,一種無需訓練的空間推理框架,旨在解決視覺語言模型在三維空間理解上的固有弱點。這些模型在判斷物體位置、空間關係以及運動方式方面仍然存在困難。
SpatialClaw 不對模型進行微調,而是通過改變代理調用感知工具的動作接口來提升性能。研究團隊認為,接口是瓶頸所在,而他們的解決方案是將代碼作為動作接口。在 20 個基準測試中,SpatialClaw 的平均準確率達到 59.9%,比最近的智能體 SpaceTools 高出 11.2 個百分點。
SpatialClaw 是一個圍繞有狀態 Python 內核構建的代理循環。內核預加載了輸入幀和一組原語,感知工具作為普通的 Python 可調用對象,其輸出(包括掩碼、深度圖、相機幾何和軌跡)都是普通的 Python 變量。該框架提供六個公共入口點:InputImages 保存採樣幀,Metadata 包含幀率、時長和幀索引,tools 暴露感知和幾何原語,show() 將圖像嵌入代理的下一個上下文,vlm 將查詢分派到獨立的 VLM 會話,ReturnAnswer() 提交最終答案。
兩個核心感知工具是 tools.Reconstruct(基於 Depth Anything 3 提供逐幀深度、相機內參、外參和密集點圖)和 tools.SAM3(基於 SAM 3 通過文本、點或框提示生成圖像或視頻掩碼)。此外,框架還包含輕量級工具:tools.Geometry、tools.Mask、tools.Time、tools.Graph 和 tools.Draw。
研究團隊對比了三種動作接口:單次代碼生成(一次性編寫完整程序並運行,在中途無法修正)、結構化工具調用(通過固定 JSON 模式調用命名工具,無法自由組合輸出)以及 SpatialClaw 的代碼接口(逐步編寫代碼、檢查結果、修正策略)。例如,在測量加熱器與門最近距離時,單次代碼可能錯誤使用質心距離,而 SpatialClaw 通過 scipy.spatial.KDTree 正確計算出 0.9439 米,接近真實值 0.9 米。
在基準測試中,SpatialClaw 在 6 種不同骨幹模型(參數量從 26B 到 397B)上都取得了提升。在 Gemma4-31B 骨幹上,無工具基線為 53.4%,單次代碼為 55.2%,結構化工具調用為 56.7%,而 SpatialClaw 達到 59.9%。與 prior 方法相比,SpatialClaw 遠超 VADAR(40.5%)、pySpatial(47.8%)和 SpaceTools-Toolshed(48.7%)。
動態任務上的提升最為顯著:在 DSI-Bench 上提升 17.6 點,在 MindCube 上提升 15.3 點。通過 LLM 作為裁判的分析顯示,代碼組合貢獻了 52.2% 的勝因,控制流貢獻 19.5%,其餘 28.3% 與接口無關。
每個樣本運行一個五階段循環:規劃、代碼生成、代碼執行、反饋組裝和答案提交。規劃器在不看到圖像的情況下起草策略,主代理每步編寫一個 Python 單元格,靜態 AST 檢查器在執行前拒絕不安全代碼。循環重複直至調用 ReturnAnswer() 或達到 30 步。項目代碼已在 GitHub 開源,支持通過 vLLM 部署骨幹模型,通過 FastAPI GPU 服務運行感知模塊。
SpatialClaw 適用於需要逐步幾何推理的任務,包括機器人技術、多視角檢測、視頻和 4D 分析以及室內場景問答。由於無需訓練,團隊可以直接在已部署的 VLM 上擴展功能,無需新數據或微調。研究團隊指出,感知質量仍是進一步提升的瓶頸,且許可證為非商業用途。