2026-05-28 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

RAG-Coding：利用結構化外部知識增強LLM醫學編碼

RAG-Coding是一種自動化ICD-10-CM編碼方法，通過協調四個大語言模型代理並基於外部知識源（如官方編碼列表和指南）進行決策，提高了編碼準確性和臨牀合規性。在MDACE數據集上，其性能優於最佳LLM基線8-13%的微觀F1和2-8%的宏觀F1。與最先進的預訓練模型PLM-ICD相比，RAG-Coding的微觀召回率高出11%，而PLM-ICD的微觀精確度高出6%，兩者F1相當。消融實驗驗證了外部知識的逐步增益。同時發佈了MDACE-2025，根據2025年最新指南重新標註，支持更細粒度的評估。

來源arXiv Computational Linguistics作者: Yidong Gan, David D. Nguyen, Yang Lin, Peter Zhong, Thanh Vu, Long Duong, Yuan-Fang Li

近日，一項關於自動醫學編碼的研究成果在arXiv上公開。該研究提出了一種名為RAG-Coding的新方法，旨在利用結構化外部知識增強大語言模型（LLM）在ICD-10-CM編碼任務上的表現。ICD-10-CM編碼是醫療記錄中不可或缺的一環，但傳統方法依賴人工，效率低下且容易出錯。RAG-Coding通過協調四個LLM代理，並利用官方編碼列表和指南等外部知識源進行檢索和交叉驗證，從而提高了編碼的準確性和臨牀合規性。在MDACE數據集上，RAG-Coding在各種LLM骨幹網絡上均取得了顯著提升。與最佳的LLM基線相比，其微觀F1分數提高了8%到13%，宏觀F1分數提高了2%到8%。與當前最先進的預訓練語言模型方法PLM-ICD相比，RAG-Coding在微觀召回率上高出11%，但在微觀精確率上低6%，兩者在F1得分上總體相當。消融實驗證實了引入外部知識的重要性，逐步驗證了每個組件的貢獻。此外，研究團隊還發布了MDACE-2025數據集。該數據集由專家根據2025年最新ICD-10-CM指南重新標註，提供了更細粒度的代碼標籤，使得評估更符合當前的臨牀標準。RAG-Coding的提出不僅推動了自動化醫學編碼技術的發展，也為LLM在需要嚴格知識遵循的醫療場景中的應用提供了新的思路。