ポストトレーニングはLLMを優れた医療コーダーに変えるか?生成型ICDコーディングの実証研究
新しい研究では、教師ありファインチューニングや強化学習などのポストトレーニング手法が、生成型大規模言語モデルのICDコーディング性能を大幅に向上させることを示し、プロンプトのみの評価ではLLMの可能性を過小評価していると主張する。
最近、arXivに投稿された研究論文「Can Post-Training Turn LLMs into Good Medical Coders? An Empirical Study of Generative ICD Coding」では、生成型大規模言語モデル(LLM)の自動ICDコーディングタスクにおけるパフォーマンスが詳細に調査されました。ICDコーディングは、国際疾病分類に基づく医療コードの割り当てであり、医療請求、疫学、臨床意思決定支援において中核的な役割を果たします。これまでの研究では、プロンプトのみの評価や検索拡張生成(RAG)、ツール使用などの推論時設定に基づき、生成型LLMは医療コーディングにおいて弱いと報告されることが多かったです。しかし、タスク固有のポストトレーニングの影響は十分に調査されていませんでした。Ziqing Wang氏らによるこの研究は、統一されたプロトコルと指標セットの下で、プロンプト、教師ありファインチューニング(SFT)、強化学習(RL)など、さまざまなポストトレーニング手法を初めて体系的に比較しました。さらに、研究チームはPHIと呼ばれる診断カリキュラムを提案しました。これはGRPOアルゴリズムを拡張し、コードの見逃し症例を修正することに特化しています。実験結果は、プロンプトのみの評価ではLLMの潜在能力を大幅に過小評価することを示しました。SFTが主要な能力向上をもたらし、GRPOがSFTを超えてコードセット予測をさらに改善し、PHIがマクロレベルのパフォーマンスに的を絞った向上をもたらしました。研究者らは、ボトルネックは生成型の定式化そのものではなく、モデルを全分類体系のリコールに適応させ最適化する方法にあると結論付けています。この研究では、コード、データ分割、チェックポイントが公開されており、関連分野のさらなる研究を促進しています。この発見は、適切なポストトレーニングによってLLMが効果的な医療コーディングツールになり得ることを示しており、臨床情報学に新たな可能性をもたらします。この結果は、単なるプロンプト評価だけでLLMの能力を判断すべきではないという重要な教訓を提供しています。