分散認識ルーブリック報酬とGRPOを用いたLLMにおける心臓関連医療質問応答の改善
本研究では、グループ相対方策最適化(GRPO)と分散認識報酬フレームワークを組み合わせ、心臓関連医療質問応答に特化したLLMの後学習を提案する。従来の二値基準集約や単一のLikertスコアリングを連続的な分析報酬関数に置き換え、より豊富な最適化信号を提供する。HealthBenchの心臓サブセットにおいて、最良のGRPO変種はQwen3-14Bベースモデルに対して精度を0.362から0.502、F1を0.532から0.668に向上させ、GPT-OSS-120Bと競合する性能を示した。
大規模言語モデル(LLM)は医療分野で有望な成果を示しているが、データプライバシー、推論コスト、エッジデバイスへの適合性などの課題から実運用は難しい。これらの課題に対処するため、より小型で効率的なモデルの開発が求められ、信頼性の高い医療推論を実現するための後学習戦略が必要とされている。本論文では、心臓関連医療質問応答に焦点を当て、ルーブリックベースの監督信号(RaR-Medicineに由来)を用いてLLMを後学習するためにグループ相対方策最適化(GRPO)を調査する。著者らは分散認識報酬フレームワークを提案する。これはRaR-Medicineの明示的集約および暗黙的集約戦略を拡張し、加重二値基準集約と単一の全体Likertスコアリングを、基準レベルのルーブリック結果から導出された連続分析報酬関数に置き換える。この定式化は、疎で多基準かつ自動検証が困難なフィードバックに対してより豊富な最適化信号を提供し、より安定したオン方策強化学習を可能にする。HealthBenchの保持された心臓関連サブセットにおいて、最良のGRPO変種はQwen3-14Bベースモデルと比較して精度を0.362から0.502、F1を0.532から0.668に改善し、GPT-OSS-120B(精度0.508、F1 0.674)と競合する性能を示した。これらの結果は、注意深く設計されたルーブリックベースの報酬がLLMにおける心臓医療質問応答の改善に実用的な戦略を提供し、他のルーブリックベースのタスクにも拡張可能であることを示している。著者らは、この手法が心臓医療に限らず、法律や金融などの複雑な推論を要するルーブリックベースのタスクにも応用できる可能性があると指摘している。今後の研究では、分散認識報酬をより広範な後学習シナリオに適用し、小規模モデルの推論効率をさらに最適化することが期待される。また、本研究はリソース制約のある環境での高性能医療AIモデルの展開に新たな道を開き、精密医療や診断支援の進展に貢献する可能性がある。GRPOと分散認識報酬を活用することで、モデルサイズを増やすことなく特定領域の性能を大幅に向上できることは、医療AIの応用ハードルを下げる点で重要である。