AI News HubLIVE
サイト内リライト2 分で読了

生物医学ツール宇宙における治療推論のためのAIエージェント

研究者らは、強化学習により訓練されたAIエージェント「ATHENA-R1」を発表。212の生物医学ツールを駆使して治療推論を行い、ベンチマークでGPT-5を上回る性能を示し、専門家や医師から高い評価を得た。

ソースarXiv AI著者: Shanghua Gao, Ayush Noori, Richard Zhu, Curtis Ginder, Zhenglun Kong, Xiaorui Su, Justin Kauffman, Benjamin S. Glicksberg, Joshua Lampert, Ankit Sakhuja, Ashwin Sawant, ATHENA-R1 Evaluation Consortium, David A. Clifton, Noa Dagan, Ran Balicer, Marinka Zitnik

治療推論は、あらゆる治療決定の根幹を成すプロセスであり、疾患の状況、併存疾患、薬剤相互作用、禁忌、そして進化する生物医学的知識を統合して最適な治療法を選択する必要がある。このプロセスは本質的に反復的であり、候補は多くの制約と照らし合わせて評価され、新たな証拠が得られるたびに修正され、検証可能な情報源に基づいて行われる。しかしながら、結論を下す前にどの証拠を探すべきかを知らなければならないため、治療推論は長年にわたり人工知能にとって困難な課題であった。今回、上海科技大学などの研究チームは、ATHENA-R1と呼ばれるAIエージェントを開発した。これは強化学習を用いて212の生物医学ツールからなるツール宇宙で訓練され、1939年以降のすべてのFDA承認薬をカバーしている。

ATHENA-R1の動作プロセスは人間の反復的推論を模倣している:各ステップで不足している情報を特定し、ツール宇宙から関連するツール(例えば薬剤データベース、遺伝子知識ベース、臨床試験リソースなど)を選択して実行し、得られた証拠を推論チェーンに統合する。このエージェントを人間による注釈付きの推論軌跡に頼らずに訓練するために、研究チームは二段階の自己学習フレームワークを構築した。まず、マルチエージェントシステムがツール、タスク、および完全な推論軌跡を自動的に構築し、教師あり微調整に使用する。次に、科学的フィードバックを伴う強化学習が推論の質——証拠収集の網羅性、ツール使用の妥当性、論理的非冗長性——を報酬として与える。この二重メカニズムにより、ATHENA-R1は複雑な治療推論戦略を自律的に学習できる。

5つのベンチマーク(3,168件の薬剤推論タスクと456件の実際の患者治療ケースを含む)において、ATHENA-R1は優れた性能を示した。オープンエンドな薬剤推論では94.7%の精度、治療推論では82.9%の精度を達成し、これはGPT-5をそれぞれ17.8ポイントおよび10.7ポイント上回る。さらに、28の希少疾患団体の専門家による盲検評価では、すべての評価基準(証拠の正確性、推論の透明性、臨床的有用性)においてATHENA-R1が参照モデルよりも好まれた。複雑な入院心血管疾患および感染症ケースについて、開業医からも好意的な評価を得た。研究チームはさらに、ATHENA-R1を用いて薬剤有害事象の仮説を生成し、540万人の患者の電子健康記録で検証した。調整オッズ比は1.48~1.84に達し、陰性対照では上昇が見られず、これらの仮説が統計的に有意であることを示した。

ATHENA-R1の成功は、強化学習を用いることで治療推論を学習可能な反復的証拠収集プロセスとして再構築できることを示している。この進展は臨床意思決定支援システムに新たな可能性をもたらすだけでなく、大規模言語モデルが専門領域においてツール使用と強化学習を通じてブレークスルーを達成できる可能性を示している。研究チームはプロジェクトページとコードを公開しており、他の研究者がこの研究を再現・拡張できるようにしている。今後、このパラダイムは複雑な推論を必要とする他の医学分野や、さらに広範な科学的推論シナリオに応用されることが期待される。