2026-06-15站内改写1 分钟阅读更新: 2026-06-15

后训练能否让大语言模型成为优秀的医疗编码员？生成式ICD编码的实证研究

一项新研究探讨了后训练（如监督微调和强化学习）如何显著提升生成式大语言模型在ICD编码任务上的表现，挑战了仅通过提示词评估得出的“LLM不擅长医疗编码”的结论。

来源arXiv Computational Linguistics作者: Ziqing Wang, Weihao Li, Shijie Chen, Yuan Luo, Kaize Ding

近日，一篇发表在arXiv上的研究论文《Can Post-Training Turn LLMs into Good Medical Coders? An Empirical Study of Generative ICD Coding》对生成式大语言模型（LLM）在自动ICD编码任务上的表现进行了深入探讨。ICD编码是国际疾病分类编码，用于医疗账单、流行病学和临床决策支持，是一项关键的医疗编码任务。此前，许多研究认为生成式LLM在ICD编码上表现不佳，但这些结论主要来源于仅使用提示词（prompting）、检索增强生成（RAG）或工具调用等推理时设置，而忽略了任务特定的后训练（post-training）对模型能力的潜在影响。该研究由Ziqing Wang等人完成，首次在统一的协议和指标集下，系统比较了基于提示词、监督微调（SFT）和强化学习（RL）等多种方法对LLM进行ICD编码性能的影响。研究团队还提出了PHI方法，这是一种诊断性课程，扩展了GRPO算法，专门用于纠正模型遗漏编码的案例。实验结果显示，仅使用提示词评估严重低估了LLM的潜力。监督微调带来了主要的能力提升，而GRPO则在SFT基础上进一步改进了代码集预测，PHI则针对宏观性能提供了针对性的改进。研究者指出，瓶颈不在于生成式模型本身，而在于如何对模型进行适配和优化以实现全分类体系的召回。该研究还公开了代码、数据分割和检查点，以促进相关领域的进一步研究。这一发现表明，通过适当的后训练，LLM有望成为有效的医疗编码工具，为临床信息学带来新的可能性。这一结果对于医疗AI领域具有重要意义，提示我们不应仅基于提示词评估来判断LLM的能力，而应考虑任务特定的后训练方法。