後訓練能否讓大語言模型成為優秀的醫療編碼員?生成式ICD編碼的實證研究
一項新研究探討了後訓練(如監督微調和強化學習)如何顯著提升生成式大語言模型在ICD編碼任務上的表現,挑戰了僅透過提示詞評估得出的“LLM不擅長醫療編碼”的結論。
近日,一篇發表在arXiv上的研究論文《Can Post-Training Turn LLMs into Good Medical Coders? An Empirical Study of Generative ICD Coding》對生成式大語言模型(LLM)在自動ICD編碼任務上的表現進行了深入探討。ICD編碼是國際疾病分類編碼,用於醫療賬單、流行病學和臨床決策支援,是一項關鍵的醫療編碼任務。此前,許多研究認為生成式LLM在ICD編碼上表現不佳,但這些結論主要來源於僅使用提示詞(prompting)、檢索增強生成(RAG)或工具呼叫等推理時設定,而忽略了任務特定的後訓練(post-training)對模型能力的潛在影響。該研究由Ziqing Wang等人完成,首次在統一的協議和指標集下,系統比較了基於提示詞、監督微調(SFT)和強化學習(RL)等多種方法對LLM進行ICD編碼效能的影響。研究團隊還提出了PHI方法,這是一種診斷性課程,擴充套件了GRPO演算法,專門用於糾正模型遺漏編碼的案例。實驗結果顯示,僅使用提示詞評估嚴重低估了LLM的潛力。監督微調帶來了主要的能力提升,而GRPO則在SFT基礎上進一步改進了程式碼集預測,PHI則針對宏觀效能提供了針對性的改進。研究者指出,瓶頸不在於生成式模型本身,而在於如何對模型進行適配和最佳化以實現全分類體系的召回。該研究還公開了程式碼、資料分割和檢查點,以促進相關領域的進一步研究。這一發現表明,透過適當的後訓練,LLM有望成為有效的醫療編碼工具,為臨床資訊學帶來新的可能性。這一結果對於醫療AI領域具有重要意義,提示我們不應僅基於提示詞評估來判斷LLM的能力,而應考慮任務特定的後訓練方法。