AI News HubLIVE
站内改写5 分で読了

「バトルシップ」をプレイしてAIエージェントに良い質問をする方法を教える

MITの研究者は、古典的なゲームをAIエージェントのテストベッドとして使用し、小型AIモデルが1%のコストで最大のモデルを上回ることを発見しました。

ソースMIT News AI著者: Alex Shipps | MIT CSAIL

2026年、人工知能エージェントへの期待はかつてないほど高まっています。これらの半自律プログラムは、カスタマーサービスやソフトウェア開発などの分野で明確に定義されたタスクを「考え」て実行できますが、通常は言語モデル(LM)を使用します。しかし、医療診断や科学発見などの分野では、不確実な環境で広範囲の解決策について問い合わせる必要があり、LMは苦労しています。

MITのコンピュータ科学・人工知能研究所(CSAIL)とハーバード大学工学応用科学部(SEAS)の研究者は、ハイステークスな設定におけるLMの主な問題を理解するために深く調査しました。彼らのテストは「バトルシップ」という古典的な推測ゲームで、認知科学者が人間が情報を求める方法を研究するのに役立ってきました。

CSAILとSEASの学者は、ゲームを自然言語の質問と回答に関するものに再構成することで、ひねりを加えました。彼らの「コラボレーティブ・バトルシップ」ゲームでは、一方の参加者が「キャプテン」となり、隠された船の場所を尋ね、チームメイトが「スポッター」としてリアルタイムで質問に回答します。

研究者らはまず40人以上の人間が一緒にゲームをプレイし、質問とイエス・ノーの回答を収集して「BattleshipQA」データセットを構築しました。これらの結果は、最先端のLM(GPT-5など)と小型モデル(Llama 4 Scoutなど)をテストする際に比較のポイントとして役立ちました。モデルを事前にトレーニングせずに、トップLMは「バトルシップ」で人間を「打ち負かす」(より少ないターンでゲームを完了する)ことができるが、小型システムははるかに非合理的であることがわかりました。

主な問題は、多くのモデルが単に有用な質問を考え出すのが得意ではないことでした。LMが隠された船についてより多くの情報を明らかにする方法で質問するようにするために、研究者は各モデルにモンテカルロ推論戦略を与えました。これは、各応答で異なるオプションが正しい可能性を注意深く測定します。結果は、規模に関係なく、AIモデルが「バトルシップ」で通常のプレイヤーを打ち負かすことができるようになりました。

おそらく最も顕著な結果はLlama 4 Scoutの向上でした。比較的小さなLMとして、人間に対する勝率はわずか8%でした。しかし、推論戦略の改良により、モデルは人間に対して82%の勝率に達しました。この慎重で効率的な質問スタイルにより、モデルはフロンティアモデル(GPT-5)を凌駕し、そのコストの約1%で動作しました。

この改善に加えて、研究者は質問への回答における人間とLMのギャップを縮めました。GPT-5は信頼性の高いスポッターであり、モデルがゲームをより速く完了するのに役立ちましたが、小型システムは隠された船の場所について誤った回答を与える悪い習慣がありました。モデルが質問をコードに変換して回答を検証する方法を明示的に指示するようになると(例えば、船がそこにあるか尋ねられたときにモデルにエリアを素早く検索させる)、モデルの精度は平均15%向上しました。

「今日の言語モデルは主に複雑なクエリに答えるために最適化されていますが、自分自身で良い質問をすることを学ぶかどうかはあまり明確ではありません」とMITの博士課程学生でCSAIL研究員のGabriel Grandは言います。「私たちの研究は、情報的な質問をすることは世界を予測しシミュレートする能力に依存することを示しています。エージェントに『世界モデル』へのアクセスを与えると、より良い質問をし、より効率的に発見を行うことがわかりました。」

チームはまず、LMにより良い質問をさせることに焦点を当てました。モンテカルロ推論戦略を実装することにより、LMは潜在的な推測を個々の粒子として推論します。スポッターからの各回答でより有効と思われる粒子は重みが増し、毎ターン膨らんだり縮んだりするゲームボールのようなものです。このより計算された適応的なアプローチにより、キャプテンはスポッターからより多くの情報を抽出する質問を行うことができました。

次に、科学者たちは広く使われているプログラミング言語PythonをAIスポッターの支援に利用しました。キャプテンが尋ねた各質問は自動的にエンコードされたコマンドに変換されました。例えば、「最初の列に2行にまたがる船はありますか?」という質問は、スポッターLMにそのエリアを検索し、デジタルゲームピースの幅を評価する指示に変換されます。モデルが特によく理解する言語で明確な指示を与えることにより、各システムはかなり頻繁に正しい回答を与えるようになりました。例えば、軽量システムGPT-4o-miniはほぼ30%のパフォーマンス向上を見せ、大型モデルClaude 4 Opusでも約8ポイント向上しました。

「この分野では、LMがソリューションを検証するためのコードを生成する『自動形式化』戦略から多くの成功を収めています」と、上級著者でMIT電気工学・コンピュータ科学准教授、CSAIL主任研究員のJacob Andreasは言います。「この研究で最も興奮しているのは、これらの技術を使用して、LMの探索と情報収集能力を改善することで、そもそもより良いソリューションを生成する可能性を開くことです。私たちはこの研究を科学分野からコーディングや数学的問題解決などのアプリケーションにスケールアップすることに興奮しています。」

しかし、このアプローチは他のボードゲームではどうでしょうか?チームは新たに装備されたLMを「Guess Who?」でテストしました。大小のモデルは、100の選択肢を巧みに絞り込み、隠されたキャラクターを正しく推測しました。Llama 4 Scoutの成功率は30%でしたが、Grandと同僚の調整後、72%以上の試行でタスクを完了しました。一方、GPT-4oは62%から90%に跳ね上がりました。GPT-5は各ゲームでスポッターを務め、質問が可能な限り正確に回答されるようにしました。

LMは両方のゲームで有望な進歩を遂げていますが、改善の余地があります。例えば、モデルは人間と比較して複雑な質問に答えるのにまだ苦労しています。OpenAI研究員で最近ハーバードを卒業した共著者のValerio Pepeは、「GPT-5は平均的な「バトルシップ」プレイヤーを倒すことができ、私たちの方法で少し良くなります。しかし、チェスとは異なり、すべてのモデルにとってエキスパートプレイヤーは依然として倒すのが難しいです。チェスではトッププレイヤーでさえAIシステムに勝つことができません。」と付け加えています。

研究者らの発見は、AIエージェントが「干し草の山の中の針」発見(科学の課題に対する稀な解決策を見つけるために膨大な選択肢空間をナビゲートする)において未開拓の可能性を持っていることを示しています。改善された情報探索スキルは、例えば化合物の分子構造を特定するなど、優れた研究アシスタントになりますが、研究者らは「コラボレーティブ・バトルシップ」はやや単純なテストベッドであると警告しています。彼らは、システムがはるかに多くの選択肢を考慮しなければならない、より複雑な設定でLMをテストしたいと考えています。

Grandはまた、人間とAIモデルが協力して、よりうまく機能するかどうかを研究する予定です。モデルはゲームシミュレーションでの微調整の恩恵を受ける可能性もあり、より多くの計算能力があれば、LMはゲームがどのように進化するかを予測するためのより高度な推論能力を持つでしょう。

「AIシステムがよりエージェント的になるにつれて、最も難しい問題は社会的なものになります:共通基盤の追跡、誤解の解決、時間の経過に伴うさまざまなパートナーへの適応です」と、スタンフォード大学言語学助教授のRobert Hawkinsは言います。彼は論文には関与していません。「この研究は、制御された協調環境でこれらの現象を優雅に捉え、AIエージェントの本当のボトルネックは最適な質問の計算だけでなく、その回答を最大限に活用するために必要な語用論的推論であることを説得力を持って示しています。」

GrandとPepeは、2人のCSAIL主任研究員(MIT准教授Jacob AndreasとMIT教授Joshua Tenenbaum)と共に論文を執筆しました。彼らの研究は、一部、MIT Siegel Family Quest for Intelligence、MIT-IBM Watson AI Lab、FinTechAI@CSAILイニシアチブ、Sloan Research Fellowship、Intel、空軍科学研究局、国防高等研究計画局、海軍研究局、国立科学財団によって支援されました。彼らは4月に開催された国際学習表現会議(ICLR)で口頭発表として論文を発表しました。