2026-05-28 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

RAG-Coding：利用结构化外部知识增强LLM医学编码

RAG-Coding是一种自动化ICD-10-CM编码方法，通过协调四个大语言模型代理并基于外部知识源（如官方编码列表和指南）进行决策，提高了编码准确性和临床合规性。在MDACE数据集上，其性能优于最佳LLM基线8-13%的微观F1和2-8%的宏观F1。与最先进的预训练模型PLM-ICD相比，RAG-Coding的微观召回率高出11%，而PLM-ICD的微观精确度高出6%，两者F1相当。消融实验验证了外部知识的逐步增益。同时发布了MDACE-2025，根据2025年最新指南重新标注，支持更细粒度的评估。

来源arXiv Computational Linguistics作者: Yidong Gan, David D. Nguyen, Yang Lin, Peter Zhong, Thanh Vu, Long Duong, Yuan-Fang Li

近日，一项关于自动医学编码的研究成果在arXiv上公开。该研究提出了一种名为RAG-Coding的新方法，旨在利用结构化外部知识增强大语言模型（LLM）在ICD-10-CM编码任务上的表现。ICD-10-CM编码是医疗记录中不可或缺的一环，但传统方法依赖人工，效率低下且容易出错。RAG-Coding通过协调四个LLM代理，并利用官方编码列表和指南等外部知识源进行检索和交叉验证，从而提高了编码的准确性和临床合规性。在MDACE数据集上，RAG-Coding在各种LLM骨干网络上均取得了显著提升。与最佳的LLM基线相比，其微观F1分数提高了8%到13%，宏观F1分数提高了2%到8%。与当前最先进的预训练语言模型方法PLM-ICD相比，RAG-Coding在微观召回率上高出11%，但在微观精确率上低6%，两者在F1得分上总体相当。消融实验证实了引入外部知识的重要性，逐步验证了每个组件的贡献。此外，研究团队还发布了MDACE-2025数据集。该数据集由专家根据2025年最新ICD-10-CM指南重新标注，提供了更细粒度的代码标签，使得评估更符合当前的临床标准。RAG-Coding的提出不仅推动了自动化医学编码技术的发展，也为LLM在需要严格知识遵循的医疗场景中的应用提供了新的思路。