AI News HubLIVE
站内改写2 分で読了

NVIDIA AI、コードをアクションインターフェースとする訓練不要の空間推論エージェント「SpatialClaw」を発表

SpatialClaw は NVIDIA Research が開発した訓練不要のフレームワークで、コードをアクションインターフェースとして使用し、20 の空間ベンチマークで平均 59.9% の精度を達成。SpaceTools を 11.2 ポイント上回る。

ソースMarkTechPost著者: Asif Razzaq

NVIDIA Research は、空間推論のための訓練不要フレームワーク SpatialClaw を発表しました。このフレームワークは、視覚言語モデル(VLM)が物体の位置、関係、3D 空間での動きを正確に判断できないという弱点に対処します。

SpatialClaw はモデルを再訓練せず、エージェントが知覚ツールを呼び出すためのアクションインターフェースを変更します。研究チームはインターフェースがボトルネックであると考え、コードをアクションインターフェースとして使用することを提案しました。20 のベンチマークで平均 59.9% の精度を達成し、最近のエージェント SpaceTools を 11.2 ポイント上回りました。

SpatialClaw は、状態を持つ Python カーネルを中心に構築されたエージェントループです。カーネルには入力フレームとプリミティブセットがプリロードされ、知覚ツールは通常の Python 呼び出し可能オブジェクトとして実装され、その出力(マスク、深度マップ、カメラ幾何、軌跡など)は通常の Python 変数です。フレームワークは 6 つのパブリックエントリポイントを提供します:InputImages(サンプリングフレーム)、Metadata(フレームレート、時間、フレームインデックス)、tools(知覚・幾何プリミティブ)、show()(画像をエージェントの次のコンテキストに埋め込み)、vlm(別の VLM セッションにクエリをディスパッチ)、ReturnAnswer()(最終回答を提出)。

2 つの主要な知覚ツールは tools.Reconstruct(Depth Anything 3 を使用し、フレームごとの深度、カメラ内部・外部パラメータ、高密度点マップを提供)と tools.SAM3(SAM 3 を使用し、テキスト、ポイント、またはボックスプロンプトから画像またはビデオマスクを生成)です。さらに、軽量ユーティリティとして tools.Geometry、tools.Mask、tools.Time、tools.Graph、tools.Draw が含まれます。

研究チームは、同じ質問に対して 3 つのアクションインターフェースを比較しました。シングルパスコードは完全なプログラムを一度に記述して実行し、途中で修正できません。構造化ツールコールは固定の JSON スキーマを通じて名前付きツールを呼び出しますが、出力を NumPy や SciPy と自由に組み合わせてテスト時の計算を表現できません。SpatialClaw はコード内でツールを構成し、結果を検査して修正します。例えば、ヒーターとドアの最近距離を測定する際、SpatialClaw は scipy.spatial.KDTree を使用して正しい距離 0.9439 m を計算しました(正解は 0.9 m)。

ベンチマークでは、SpatialClaw は 6 つのバックボーン(26B~397B パラメータ)すべてで改善を示しました。Gemma4-31B バックボーンでは、ツールなしベースライン 53.4%、シングルパスコード 55.2%、構造化ツールコール 56.7%、SpatialClaw 59.9% でした。先行手法と比較すると、VADAR(40.5%)、pySpatial(47.8%)、SpaceTools-Toolshed(48.7%)を大きく上回りました。

動的タスクでの向上が最も顕著で、DSI-Bench で +17.6、MindCube で +15.3 を達成しました。LLM による判定分析では、コード構成が勝利の 52.2% を占め、制御フローが 19.5%、残り 28.3% はインターフェースに依存しない結果でした。

各サンプルは 5 段階ループ(計画、コード生成、コード実行、フィードバックアセンブリ、回答提出)を実行します。プランナーは画像を見ずに戦略を立案し、メインエージェントはステップごとに 1 つの Python セルを作成します。静的 AST チェッカーが実行前に安全でないコードを拒否します。ReturnAnswer() が呼ばれるか 30 ステップ経過するまでループが繰り返されます。

SpatialClaw は、ロボティクス、多視点検査、ビデオ・4D 解析、屋内シーンの質問応答など、段階的な幾何推論が必要なタスクに適しています。訓練不要であるため、チームは新しいデータや微調整なしに既存の VLM を拡張できます。研究チームは、さらなる改善のボトルネックは知覚品質であり、ライセンスは非商用であると述べています。