2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

後訓練能否讓大語言模型成為優秀的醫療編碼員？生成式ICD編碼的實證研究

一項新研究探討了後訓練（如監督微調和強化學習）如何顯著提升生成式大語言模型在ICD編碼任務上的表現，挑戰了僅透過提示詞評估得出的“LLM不擅長醫療編碼”的結論。

來源arXiv Computational Linguistics作者: Ziqing Wang, Weihao Li, Shijie Chen, Yuan Luo, Kaize Ding

近日，一篇發表在arXiv上的研究論文《Can Post-Training Turn LLMs into Good Medical Coders? An Empirical Study of Generative ICD Coding》對生成式大語言模型（LLM）在自動ICD編碼任務上的表現進行了深入探討。ICD編碼是國際疾病分類編碼，用於醫療賬單、流行病學和臨床決策支援，是一項關鍵的醫療編碼任務。此前，許多研究認為生成式LLM在ICD編碼上表現不佳，但這些結論主要來源於僅使用提示詞（prompting）、檢索增強生成（RAG）或工具呼叫等推理時設定，而忽略了任務特定的後訓練（post-training）對模型能力的潛在影響。該研究由Ziqing Wang等人完成，首次在統一的協議和指標集下，系統比較了基於提示詞、監督微調（SFT）和強化學習（RL）等多種方法對LLM進行ICD編碼效能的影響。研究團隊還提出了PHI方法，這是一種診斷性課程，擴充套件了GRPO演算法，專門用於糾正模型遺漏編碼的案例。實驗結果顯示，僅使用提示詞評估嚴重低估了LLM的潛力。監督微調帶來了主要的能力提升，而GRPO則在SFT基礎上進一步改進了程式碼集預測，PHI則針對宏觀效能提供了針對性的改進。研究者指出，瓶頸不在於生成式模型本身，而在於如何對模型進行適配和最佳化以實現全分類體系的召回。該研究還公開了程式碼、資料分割和檢查點，以促進相關領域的進一步研究。這一發現表明，透過適當的後訓練，LLM有望成為有效的醫療編碼工具，為臨床資訊學帶來新的可能性。這一結果對於醫療AI領域具有重要意義，提示我們不應僅基於提示詞評估來判斷LLM的能力，而應考慮任務特定的後訓練方法。