AIは鍵の場所を教えてくれる?
MITの研究者が開発した新しいロボット用長期記憶フレームワーク「DAAAM」は、環境内の物体を詳細に記述する3Dマップと組み合わせることで、ロボットがリアルタイムで空間記憶を構築し、自然言語による複雑な質問に高精度で回答することを可能にします。精度は既存手法より21〜53%向上し、ロボットや拡張現実への応用が期待されます。
自動車工場の作業員は、前夜に置いた半完成部品の保管場所を覚えていて、すぐに取りに行ける。しかし、作業員と並んで働くロボットは、このような「時空間記憶」を発展させ、アクセスすることに苦労する。そこで、MITの研究者は、ロボットが複雑で大規模な環境の詳細な心的モデルを迅速に形成し、想起できるようにする長期記憶フレームワークを開発した。この技術により、将来的には作業員が「昨夜組み立て始めた部品を取りに行って」とロボットに指示するだけで、ロボットがその部品を取ってくることが可能になる。
この新しい手法は、高度な地図表現と、ロボットが長期にわたって移動しながら収集した豊富な環境記述を組み合わせる。ロボットはこの記憶に素早くアクセスし、平易な言語で環境に関する複雑な質問に答えることができる。この記憶フレームワークは、最先端の手法よりも正確に質問に答え、移動ロボットがリアルタイムで使用できる十分な速度で動作する。ロボット分野以外にも、拡張現実システムに応用して、メンテナンス作業員の異常検知や通勤者の道案内を支援することができる。
「ロボットが人間と並んで作業し、より良く相互作用するためには、同じ言語を話す必要があります。ロボットは人間と同じように時間と空間について推論できなければなりません。それがまさに私たちの手法のやっていることです。従来の地図を言語ベースの地図に変換し、ロボットが言語を使って考え、アクセスしやすくしています」と、MIT航空宇宙学科准教授で情報・意思決定システム研究所の主席研究員、MIT SPARKラボ所長のLuca Carlone氏は語る。
この論文の筆頭著者はMIT大学院生のNicolas Gorlo氏、共著者は元MIT研究科学者で現在ドイツ・ニュルンベルク工科大学の教授であるLukas Schmid氏。研究はコンピュータビジョン・パターン認識会議(CVPR)で発表された。
このような記憶フレームワークを開発するため、MITの研究チームはコンピュータビジョンとロボットマッピングという2つの研究ラインを橋渡しした。マルチモーダルコンピュータビジョンモデルはシーン内の物体を理解し豊かに記述できるが、一度に一つの注釈しか処理できないことが多い。一方、ロボットマッピングフレームワークはアパート全体や大学キャンパスなどの環境の3Dマップを作成できるが、物体の詳細な記述が欠けていたり、計算コストが高い。
MITの研究者が作成した手法は「Describe Anything, Anywhere, Anytime, at Any Moment(DAAAM)」と呼ばれ、両方のアプローチの長所を生かしている。DAAAMを使用すると、ロボットは環境を移動する際に、見た物体に豊かな説明を付加する。例えば、MITキャンパスの特定の建物がStata Centerと呼ばれ、特定の建築様式で設計されていること、または自転車ラックに5台の自転車があり、赤い自転車のタイヤがパンクしていることなどを記録する。
この詳細な情報は、空間的に配置された3Dマップベースの表現に保存され、物体は別々の領域にグループ化される。これにより、ロボットは「パンクした赤い自転車はStata Centerの外の自転車ラックにある」ことを記憶できる。
しかし、このような豊かな説明を捉える既存の技術は、数個の物体に注釈を付けるのに通常数秒かかる。ロボットが数分の探索で数百もの物体を見る可能性があるため、これはリアルタイム性能には遅すぎる。
「ロボットがこの空間記憶をより速く形成できれば、環境内でアクションを実行する効率が高まります」とCarlone氏は付け加える。
処理を効率化するため、DAAAMは移動中に近くの物体を集約し、最適化手法を使用して注釈を付けるキーフレームを選択する。これらは複数の物体が最もはっきり見える画像であり、システムが複数のアイテムを並行して徹底的に記述することを可能にし、計算を10倍高速化する。
ロボットが空間を探索するにつれて、注釈のバッチを3Dマップ上の特定の場所にある複数の物体に貼り付ける。「各オブジェクトに一度だけ注釈を付けるため、私たちのフレームワークは非常に大規模な環境でもリアルタイムに動作できます。オブジェクトをリージョンにクラスタリングすることで、環境内のオブジェクトや場所に関する幅広いクエリに答えることができます」とGorlo氏は説明する。
システムがこの空間記憶を構築したら、膨大なオブジェクトと記述のデータベースから効率的に情報を検索する必要がある。そのために、研究者らは様々なツールを呼び出すLLMを使用し、特定の情報を素早く取得してハルシネーションを減らす。これにより、DAAAMはユーザーのクエリに数秒で正確に回答できる。
例えば、ロボットにMITキャンパスの建物の近くで見た特定の彫刻について尋ねると、DAAAMは「彫刻」という単語に基づいて情報を検索するセマンティック検索ツールや、建物の位置に基づいて情報を検索する別のツールを使用できる。
テストで他の手法と比較したところ、DAAAMは質問の種類に応じて21%から53%高い精度を示した。
将来的には、研究者はDAAAMを拡張して、環境内で発生した重要なイベントを捉えられるようにしたいと考えている。また、システムの応答に信頼度レベルを組み込むことも検討している。
「最終的には、あらゆる種類のタスクを支援できるロボットを実現したいと考えています。このフレームワークで、私たちはあなたが求めるあらゆることを実行できる汎用エージェントを可能にする基盤を作ろうとしています」とGorlo氏は語る。
この研究は、一部、米国陸軍研究所および海軍研究局からの資金提供を受けた。Carlone氏は現在、Amazon Scholarとしてサバティカル中であるが、本記事はMITで行われた研究を説明するものであり、Amazonとは関係がない。