后训练能否让大语言模型成为优秀的医疗编码员?生成式ICD编码的实证研究
一项新研究探讨了后训练(如监督微调和强化学习)如何显著提升生成式大语言模型在ICD编码任务上的表现,挑战了仅通过提示词评估得出的“LLM不擅长医疗编码”的结论。
近日,一篇发表在arXiv上的研究论文《Can Post-Training Turn LLMs into Good Medical Coders? An Empirical Study of Generative ICD Coding》对生成式大语言模型(LLM)在自动ICD编码任务上的表现进行了深入探讨。ICD编码是国际疾病分类编码,用于医疗账单、流行病学和临床决策支持,是一项关键的医疗编码任务。此前,许多研究认为生成式LLM在ICD编码上表现不佳,但这些结论主要来源于仅使用提示词(prompting)、检索增强生成(RAG)或工具调用等推理时设置,而忽略了任务特定的后训练(post-training)对模型能力的潜在影响。该研究由Ziqing Wang等人完成,首次在统一的协议和指标集下,系统比较了基于提示词、监督微调(SFT)和强化学习(RL)等多种方法对LLM进行ICD编码性能的影响。研究团队还提出了PHI方法,这是一种诊断性课程,扩展了GRPO算法,专门用于纠正模型遗漏编码的案例。实验结果显示,仅使用提示词评估严重低估了LLM的潜力。监督微调带来了主要的能力提升,而GRPO则在SFT基础上进一步改进了代码集预测,PHI则针对宏观性能提供了针对性的改进。研究者指出,瓶颈不在于生成式模型本身,而在于如何对模型进行适配和优化以实现全分类体系的召回。该研究还公开了代码、数据分割和检查点,以促进相关领域的进一步研究。这一发现表明,通过适当的后训练,LLM有望成为有效的医疗编码工具,为临床信息学带来新的可能性。这一结果对于医疗AI领域具有重要意义,提示我们不应仅基于提示词评估来判断LLM的能力,而应考虑任务特定的后训练方法。