臨床エージェントのためのワールドフィードバック:FHIR環境におけるRLの診断
本研究はMedAgentBench v1/v2を監査し、41.7%のサイレントフィニッシュ上限を発見し、MAB-v3(508タスク、8.9%上限)を構築した。Qwen3-8Bのトレーニングにより、能力上限と形式知識障壁という2つの構造的障壁が明らかになった。純粋なRLは18.2%のpass@1を達成したのに対し、ルールベースのSFTは34.1%であり、その差は完全にこれらの障壁に起因する。意思決定/形式知識/ルックアップの分類法はRLの学習可能性を予測する。
強化学習(RL)は、検査値の確認、閾値の適用、正しい構造のFHIRオーダーの配置といった臨床プロトコル実行タスクに自然に適合します。これらのタスクでは、臨床専門家が検証器に意思決定ロジックを組み込むことで、エピソードごとの注釈なしに無制限のロールアウトを評価できます。しかし、RLをこのような環境に適用するには、適切なフィードバックチャネルと十分な基本能力が必要です。
Ananya Mantravadiらによる研究では、既存のMedAgentBench v1/v2ベンチマークを監査した結果、41.7%ものサイレントフィニッシュ上限(silent-finish ceiling)が存在することが判明しました。これは、エージェントが何もしないことで成功できることを意味し、無行動がRLの支配的戦略となっています。この問題に対処するため、研究チームはMedAgentBench-v3(MAB-v3)を構築しました。これは508のタスクを含み、サイレントフィニッシュ上限を8.9%に低減します。
Qwen3-8Bモデルを使用したトレーニングでは、2つの構造的障壁が明らかになりました。1つは能力上限(capability ceiling)で、20のタスクタイプのうち10で基本性能が0%であり、RLの勾配が効果的に伝播しません。もう1つは形式知識障壁(format-knowledge barrier)で、20のうち3のタスクタイプでは探索では発見できない正確な臨床コードが必要です。実験の結果、純粋なRLのpass@1は18.2%であったのに対し、ルールベースの教師ありファインチューニング(SFT)は34.1%であり、15.9ポイントの差は完全にこれらの障壁に起因します。
研究ではさらに、意思決定/形式知識/ルックアップ(decision/format-knowledge/lookup)の分類法を提案し、RLの学習可能性を予測するとともに、解決策を示しています。それは、SFTでコード知識を注入し、RLで条件付きロジックを学習するというものです。この発見は、効果的な臨床AIエージェントの設計に重要な意味を持ち、他の分野のRL応用にも示唆を与えます。本論文は2026年7月1日にarXivに提出され、著者には他に3名の共同研究者がいます。