科学発見のためのAIエージェントの評価
Ai2が開発した2つのベンチマーク(ScienceWorldとDiscoveryWorld)は、非常に強力なAI科学エージェントでも人間の科学者が日常的に解決する問題に苦戦することを明らかにしました。ScienceWorldは基本的な実験能力を、DiscoveryWorldはエンドツーエンドの科学的発見能力をテストします。現在のトップモデルはScienceWorldで約80%、DiscoveryWorldの困難なタスクでは約20%の成功率であり、人間の科学者は約70%です。
近年、多くのチームがAIエージェントが実験を設計し、コードを書き、完全な研究論文を生成できると発表していますが、その主張を裏付ける証拠は不十分なことがよくあります。AI科学エージェントの真の能力を体系的に評価するために、アレン人工知能研究所(Ai2)は2つのベンチマークを開発しました。2022年に公開されたScienceWorldと、2024年に公開されたDiscoveryWorldです。
ScienceWorldは、エージェントをテキストベースの仮想世界に配置します。この世界には、キッチン、温室、工作室など10の相互接続された場所と、約200種類の物体が存在し、これらは現実の実験室と同様に振る舞います。つまり、氷は加熱すると溶け、回路は材料に応じて導通し、植物は適切な条件下で成長します。エージェントは、未知の物質の沸点を測定する、メンデル遺伝学の交配実験を行うなど、30のタスクタイプを実行します。各タスクには何百ものランダムな構成があり、記憶による解決を防ぎます。2022年には、科学試験で優秀な成績を収めたモデルでもScienceWorldでは10%未満のスコアしか達成できず、「本の知識」と「実践能力」のギャップが浮き彫りになりました。2025年初頭にはトップモデルが約80%までスコアを向上させましたが、それでも小学生レベルの実験を完全には解決できていません。
DiscoveryWorldはより難易度が高く、エージェントがゼロから科学的調査を設計し実行する能力をテストする初のベンチマークです。架空の「プラネットX」を舞台に、プロテオミクス、ロケット科学、放射性同位体年代測定、疫学など8つの分野にわたる120のタスクが、3つの難易度レベルで用意され、毎回データや環境が変わります。エージェントは仮説の立案、実験の設計と実行、結果の分析を行い、多くの場合数百のアクションを必要とします。評価では、タスクの完了だけでなく、科学的プロセスを遵守し発見を真に理解しているかどうかも判定され、真の洞察と幸運な推測が区別されます。現在、通常および困難な難易度では、最良のAIシステムでも約20%のタスクしか完了できません。一方、高度な学位を持つ人間の科学者は約70%を達成します。
Ai2の研究者Peter Jansen氏は、多くのチームが科学エージェントを急いで公開しているが、昨年の最高システムでさえDiscoveryWorldの簡単な問題を解決できなかった状況を考えると、現在の進歩は疑わしいと述べています。これらのベンチマークは、「概念を知っていること」と「応用できること」の違いを評価するために設計され、無料で公開されています。Jansen氏は、モデルの価格性能比が向上した今こそ、DiscoveryWorldを使って長期的な科学発見タスクをテストする絶好の機会だと述べています。将来的には、科学エージェントが病気の治療や新材料の創出に貢献することが期待されますが、そのためには基礎科学のテストを通過する必要があります。これらのベンチマークは、有望なアイデアを証明された結果に変えるための重要な手段です。