2026-05-22 22:40 UTC+9サイト内リライト3 分で読了更新: 2026-06-27 09:25 UTC+9

新しいフレームワークがロボットの複雑な言語から精密な3D動作への変換を支援

香港中文大学などの研究者は、視覚言語モデルと3Dオブジェクト表現を組み合わせた検索拡張操作（RAM）フレームワークを提案。ロボットが複雑な空間指示を理解し、タスク固有の訓練なしで正確に実行できるようにする。実ロボットでのゼロショットテストに成功し、物理的制約に基づく適応的再計画が可能。

ソースTech Xplore AI

記事インテリジェンス

エンジニア上級

要点

RAMフレームワークは視覚言語モデルと3Dオブジェクト表現を統合し、意味と幾何のギャップを埋める。
複雑な指示を空間的に精密なサブゴールに分解し、適応的な再計画を可能にする。
実ロボットでのゼロショットテストで、新しいタスクを成功裏に実行し、物体のサイズや衝突を考慮。
家庭用、産業用、サービスロボットへの応用が期待される。

重要な理由

このニュースが重要なのは、RAMフレームワークは視覚言語モデルと3Dオブジェクト表現を統合し、意味と幾何のギャップを埋めるためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

過去数十年にわたり、世界中のロボット工学者は、人間の指示を理解し、環境内を移動し、基本的な手作業を確実に実行できるますます高度なロボットを導入してきました。いくつかのシナリオでは良好に機能するものの、これらのロボットの多くは、ユーザーの指示を正確で実行可能な動作に変換し、所望のタスクを完了させることに依然として苦労しています。

最近、コンピュータ科学者は、画像とテキストの両方を処理するために訓練された人工知能システムである視覚言語モデル（VLM）を使用して、ロボットのユーザーコマンドやクエリへの応答を改善しようと試みています。これらのモデルは通常、「ボトルを皿の上に置いて」などの単純な要求を解釈できますが、より複雑な指示を解釈し、現実世界の設定で実行可能な動作に変換するために必要な空間推論能力を欠いていることがよくあります。

香港中文大学、浙江人型ロボットイノベーションセンター有限公司などの研究者は、ロボットが抽象的な指示を周囲の空間の3次元（3D）表現に接続する能力を向上させるフレームワークである検索拡張操作（RAM）を導入しました。新たなフレームワークはScience Robotics誌に発表され、ロボットの空間推論能力を向上させ、タスク固有の訓練を必要とせずに、より詳細な指示に確実に従うことができることが示されました。

研究者らは論文で次のように述べています。「VLMは高レベルのコマンドを解釈できますが、正確なオブジェクト配置、方向、物理的推論を必要とするタスクに必要な内在的な空間知能を欠いています。我々は、汎用視覚基盤モデルに堅牢な操作に必要な空間推論を付与する、オブジェクト中心のフレームワークであるRAMを導入します。」

RAMフレームワークは、VLMを明示的な3Dオブジェクト表現と組み合わせます。これまでに提案された多くのアプローチとは異なり、人間の指示を解釈することと、オブジェクトが3D空間にどのように存在するかを理解することの2つの能力の間の橋渡しとして機能します。RAMは、抽象概念を明示的でオブジェクト中心の3D表現に接地することにより、意味論から幾何学へのギャップを埋めます。この接地情報は、拡張コンテキストとしてVLMに提供され、複雑な指示を空間的に正確で物理的に実現可能な一連のサブゴールに分解する力を与えます。

システムは、ロボットの統合カメラがキャプチャした画像を分析し、特定のオブジェクトを識別し、現在の環境の3Dオブジェクト中心表現を構築します。これにより、モデルはオブジェクトの位置、おおよその形状やサイズ、方向、および互いの近接度を描写できます。VLMが人間のユーザーからの指示を処理した後、フレームワークは3Dシーン表現からの空間情報をモデルにフィードバックします。これにより、抽象的な言語を現在のシナリオに物理的に関連する指示に変換できます。

次に、フレームワークはロボットに指示されたタスクを空間的に情報を得たサブゴールに分解します。タスクをより小さなステップに分割することで、システムは周囲の環境で何かがうまくいかなかったり変化した場合に、異なるアクションを適応させて計画できます。

著者らは次のように述べています。「我々は、RAMが実ロボットでのゼロショット設定で、これらのサブゴールを実行して複雑な空間言語指示を満たし、単一の2D画像のガイダンスの下で空間認識操作を完了し、オブジェクトサイズや衝突などの物理的制約を推論することでタスクを適応的に再計画できることを実証しました。3D共通オブジェクトデータセットでの定量的評価も、RAMの中核視覚モジュールが未見のオブジェクトカテゴリに一般化し、形状の変動や遮蔽に対してロバストであることを検証しました。」

研究チームはすでに実際のロボットでフレームワークをテストし、事前に訓練されていないさまざまなタスクを実行するように指示しました。注目すべきことに、ロボットはこれらのタスクの多くを正常に完了し、動作が望ましいサブゴールを達成できなかった場合に適応的に再計画することができました。

「意味論的な意図と幾何学的な実行の間の構造化された橋渡しを提供することにより、RAMはより物理的に知的で汎用的なロボットシステムを開発するための重要なステップを表しています」と研究者らは述べています。このフレームワークは今後さらに改良され、さまざまなロボット、オブジェクト、ユーザー指示を用いたより広範な実世界実験でテストされる可能性があります。将来的には、家庭用、産業用、サービスロボットの進歩に貢献し、動的な実世界環境でユーザーの指示に厳密に従い、柔軟に適応することができるようになるでしょう。