2026-06-26 22:00 UTC+9サイト内リライト4 分で読了更新: 2026-06-26 23:18 UTC+9

LLMがロボットの曖昧な指示の理解と重要詳細への焦点合わせを支援

MITコンピュータ科学・人工知能研究所（CSAIL）の研究者らは、2つの大規模言語モデル（LLM）を用いてユーザーの曖昧な指示を自動的に明確化し、無関係な情報をフィルタリングする「Masked Inverse Reinforcement Learning（Masked IRL）」を開発した。これにより、ロボットがタスクを学習するために必要なデモデータを約5分の1に削減。シミュレーションと実ロボット実験で、暗黙のユーザー嗜好をより正確に特定し、安全にタスクを実行できることを実証した。

ソースMIT News AI著者: Alex Shipps | MIT CSAIL

近い将来、倉庫やオフィスで、新しい「研修生」であるロボットに仕事の基本を教える必要が生じるかもしれません。従来の教育方法では、物理的なデモンストレーションや詳細な指示が大量に必要で、人間にとっては手間がかかります。例えば、ロボットにZoom会議中に邪魔されずにコーヒーを机に置くように頼んだとします。ロボットはあなたやノートパソコンに近づきすぎず、会議を妨害しないようにする必要があります。この行動を実現するには、タスク全体を明確に示すデータでロボットを訓練する必要があります。コンピュータ科学者は、多くの物理的なデモを録画したり、詳細な指示を書いたりすることでロボットに操作タスクを説明しようとしてきましたが、両方が揃わなければ、ロボットは何をすべきか誤解する可能性があります。

人間にとってこれらすべてのデモと説明は労力がかかるため、MITのコンピュータ科学・人工知能研究所（CSAIL）の研究者は、ロボットへの教育プロセスを自動化し、指示を自動的に明確化するとともに、デモデータを約5分の1に削減しました。彼らの「Masked Inverse Reinforcement Learning（Masked IRL）」アプローチは、大規模言語モデル（LLM）を使用して、ユーザーのデモから収集したデータに基づいて曖昧なプロンプトを拡張し、別のLLMでアルゴリズムが動作計画に組み込むべき詳細を絞り込みます。これにより、ロボットは家庭、オフィス、工場で安全に家事を完了できます。

「私たちのアプローチは、人間がロボットと対話する際にタスクの詳細をすべて説明したくない場合に役立ちます」と、プロジェクトを紹介する論文の主著者であるMITの博士課程学生でCSAIL研究員のMinyoung Hwang氏は述べています。「機械にユーザーが本当に望んでいることを理解させることで、人間の労力を最小限に抑えています。」Hwang氏によると、Masked IRLは、人間がプロンプトで説明しないかもしれないが重要である要素が存在する環境で、ロボットが安全に行動するのに役立ちます。例えば、台所からスナックを取ってくるロボットは、ノートパソコンにぶつからないようにすることを知らないかもしれません。同様に、工場でアイテムを異なる箱に詰めるロボットは、棚の間を注意深く移動する必要があります。

これらの状況で新しいタスクを学習するために、Masked IRLはロボットのセンサーを使用して周囲の情報を取得します。これらのコンポーネントはまた、運動学的デモンストレーション（人間が物理的にロボットを動かして特定の動作を行う訓練方法）の各動きを記録します。これは、ロボットの物理療法士のようなもので、関節を特定の方向に曲げて、物のつかみ方、移動方法、配置方法を示します。MITのシステムは、LLMを呼び出して、この一連の動き（軌跡と呼ばれる）を最短経路と比較します。モデルはまた、プロンプトで不明瞭かもしれない点を拡張し、「近くにいて」のようなリクエストを「テーブルの表面に近づいて」に変換します。軌跡比較と明確化された指示を使用して、LLMは訓練された動きがタスクにとって重要である理由を理解し始めます。

次に、2番目のLLMが環境の詳細（障害物の位置やロボットの対象物の形状など）を評価します。このプロセス中に、当面のタスクに関係ないと判断した要素を「マスク」（つまり無視）し、各要素を「1」（重要）または「0」（重要でない）でスコア付けします。例えば、デモ中にユーザーがテーブルに寄りかかっていたかどうかは「0」になり、無関係とみなされます。「1」とみなされた詳細は、アルゴリズムによって最終的な行動計画に組み込まれます。

これらのマスクにより、Masked IRLは3Dシミュレーションと実世界のデモの両方で同等のベースラインと比較して重要な利点を得ました。それは、ロボットにどの情報を優先すべきかを教えるからです。研究者のシステムのおかげで、仮想および実ロボットはどちらも、コーヒーマグをノートパソコンの周りからテーブルの別の場所に移動するなど、障害物を巧みに避けて物体を操作できました。これらのタスクで、Masked IRLはユーザーがプロンプトで明示的に述べなかった好みを、ベースラインよりも最大15％高い精度で特定しました。

シミュレーション実験では、CSAIL研究者はMasked IRLが速い学習者であることも発見しました。マグカップの動かし方を理解するのに必要なデモ回数がベースラインより少なくて済みました。また、LLMが指示を明確にした場合、ロボットは曖昧なリクエストに従おうとするよりも良いパフォーマンスを発揮しました。

このより焦点を絞ったアプローチは、実際のロボットアームにも良好に移行し、訓練段階で見たことのないプロンプトを実行できました。50回の運動学的デモンストレーションで訓練された後、ロボットは、より一般的な「離れていて」というリクエストを拡張することで回避することを学んだ障害物（ユーザーのコンピュータ）に衝突しないように注意しながら、カップを人間に向かって慎重に移動しました。また、「近づいて」テーブルを拭き、「離れていて」という指示で人間とテーブルの両方から離れながらチップスの袋をユーザーに手渡しました。

Masked IRLはユーザーが言い残したことを感知して説明しますが、すぐにそれを「見る」こともできるようになるかもしれません。CSAIL研究者は、カメラを装備してアプローチをより動的にする計画です。ロボットが周囲の画像を撮影し、近くの特定の要素を強調して焦点を当てることができます。例えば、おもちゃを拾うように機械に頼むと、近くのバナナを見て無視し、対象物を処理する前にそれらを無視するかもしれません。

Hwang氏は、3人のCSAIL同僚（博士課程学生のAlexandra Forsey-Smerek氏（'20、SM '22）、博士研究員のNathaniel Dennler氏、MIT助教授のAndreea Bobu氏（航空宇宙学科およびCSAIL所属））と共に論文を執筆しました。この研究は、一部、タタグループによるMIT生成AIインパクトコンソーシアム賞および国防総省の支援を受けました。彼らは2026年6月のIEEE国際ロボット工学およびオートメーション会議でプロジェクトを発表する予定です。