2026-03-27 04:02 UTC+9サイト内リライト3 分で読了更新: 2026-06-27 09:25 UTC+9

AsgardBench：視覚に基づく対話型計画のためのベンチマーク

AsgardBench は、具現化AIエージェントが視覚フィードバックに基づいて計画を調整できるかをテストする新しいベンチマークです。AI2-THORシミュレーション環境上に構築され、エージェントをキッチンなどのシーンに配置し、オブジェクトの状態（カップがきれいかどうかなど）を観察して動的にアクションシーケンスを変更することを要求します。テストの結果、視覚情報により成功率が大幅に向上しましたが、現在のモデルは細かな視覚的差異の識別、進捗追跡、計画のタイムリーな更新において依然として課題を抱えています。

ソースMicrosoft Research Blog著者: Andrea Tupini, Lars Liden, Reuben Tan, Yu Wang, Jianfeng Gao

記事インテリジェンス

エンジニア上級

要点

AsgardBench は、具現化AIエージェントが視覚フィードバックを利用して計画を修正する能力に焦点を当てています。
ベンチマークは12種類のタスクタイプにわたる108の制御されたタスクインスタンスで構成されています。
視覚入力により、テストされたほとんどのモデルの成功率が2倍以上に向上しました。
現在のモデルは、詳細な視覚識別、進捗追跡、動的な計画調整に弱点があります。

重要な理由

このニュースが重要なのは、AsgardBench は、具現化AIエージェントが視覚フィードバックを利用して計画を修正する能力に焦点を当てていますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

キッチンを掃除するロボットを想像してみてください。環境を観察し、何をすべきかを決定し、予期しないことが起こったときに調整する必要があります。例えば、洗うように指示されたマグカップがすでにきれいだったり、シンクが他のものでいっぱいだったりする場合です。これが具現化AIの領域です。つまり、環境を知覚し、その中で行動するシステムです。この分野は急速に進歩していますが、これらのシステムを評価することは見かけ以上に困難です。多くのベンチマークは、知覚、ナビゲーション、物理制御をすべて同時にテストするため、AIエージェントが実際に知覚を利用してより良い意思決定を行っているのか、それとも環境が十分に予測可能でスクリプト化できるために偶然成功しているのかを切り分けることが難しくなっています。

この問題に対処するために、AsgardBenchを作成しました。論文「AsgardBench — Evaluating Visually Grounded Interactive Planning Under Minimal Feedback」では、このベンチマークがどのように単純でありながら要求の厳しい課題を提起するかを説明しています。AIエージェントに家庭内のタスクを与え、画像を通じて環境を観察させ、知覚が予想と矛盾する場合に計画を調整できるかどうかを確認します。必要なマグカップがすでにシンクにあるかどうか、またはそうでないかに気づき、それに応じて行動できるか？これがAsgardBenchが答えるように設計された核心的な質問です。

AsgardBenchは、AIエージェントを家庭内タスクで訓練・評価するために使用されるインタラクティブな3Dシミュレーション環境AI2-THOR上に構築されています。エージェントをオブジェクトの近くに配置し、「探す」「拾う」「置く」「掃除する」「オン/オフする」といった小さな固定アクションセットを与えます。各ターンで、エージェントはタスクを完了するための完全なステップシーケンスを提案しますが、最初のステップのみが実行されます。焦点はあくまで計画適応にあります。つまり、エージェントが部屋を移動したりオブジェクトを操作したりできるかどうかではなく、知覚したものを利用して次のステップを修正できるかどうかです。

例えば、エージェントはマグカップがきれい、汚れている、またはコーヒーが入っていることを発見するかもしれません。また、シンクに他の多くのアイテムがあることを観察するかもしれません。そのため、同じ指示でもタスクの進行に応じて異なるアクションシーケンスが必要になります。AsgardBenchは、制御された設定を通じて視覚に基づく意思決定能力を隔離します。テストでは、複数の主要な視覚対応モデルを評価し、視覚入力がパフォーマンスを大幅に向上させることを観察しました。ほとんどのモデルで、画像が与えられた場合、シーンのテキスト説明のみの場合と比較して成功率が2倍以上になりました。これは、エージェントが失敗のテキストフィードバックに依存することで視覚なしでもかなり良好に機能できた以前のベンチマークとは対照的です。

しかし、AsgardBenchの結果は、現在のエージェントの持続的な欠点も明らかにしました。すべてのモデルで同じ問題が繰り返し発生しました。実行不可能なアクションの試行（例えば、シンクにないマグカップを掃除しようとする）、繰り返しアクションループに陥る、微妙な視覚的手がかり（オン/オフ、きれい/汚い）の誤解釈、タスクの進行状況を見失うことなどです。これらは3つの弱点を示しています。散らかったシーンで微妙な視覚的詳細を区別する能力の欠如、複数のステップにわたって正確なタスク進行状況を維持する能力の欠如、そして見たものをタイムリーな計画更新に一貫して変換する能力の欠如です。これらを総合すると、次世代の具現化エージェントが改善すべきポイントが浮かび上がります。

AsgardBenchは診断ツールおよび開発ツールとして有用です。エージェントが受け取るフィードバック（なし、最小限、詳細）を変えることで、研究者はパフォーマンス向上がより優れた知覚、記憶、または計画のいずれに起因するかを切り分けることができます。有望な方向性としては、より強力な視覚理解とより優れた状態追跡を組み合わせたシステム、タスク途中での計画修正を重視したトレーニングアプローチ、そしてエージェントが成功したかどうかだけでなく、途中でどれだけ適応したかを測定する評価方法が挙げられます。AsgardBenchはオープンソースであり、GitHubで入手可能で、視覚に基づく計画研究を前進させる基盤を提供します。