2026-07-02 12:00 UTC+8站内改写2 分钟阅读更新: 2026-07-02 15:57 UTC+8

RareDxR1：超越人工标注的罕见病自主医疗推理

RareDxR1是一种端到端的推理中心型大语言模型，可直接从非结构化临床笔记中进行开放域罕见病诊断。它通过知识内化和自主进化学习，绕过传统基于流水线的表型提取或检索增强生成方法的局限，并采用反思增强推理采样和双级课程强化学习来提升诊断准确性。实验表明，RareDxR1在多个基准测试中达到了最先进的水平。

来源arXiv AI作者: Deyang Jiang, Haoran Wu, Ziyi Wang, Yiming Rong, Yunlong Zhao, Ye Jin, Bo Xu

近日，研究人员提出了一种名为RareDxR1的新型大语言模型，旨在直接根据非结构化临床笔记进行罕见病的开放域诊断。罕见病的鉴别诊断是一项艰巨的临床任务，需要医生从复杂、非结构化的患者症状中识别出精确的表型，并在庞大的搜索空间中进行复杂的推理。然而，现有的AI方法通常依赖于基于流水线的表型提取或检索增强生成（RAG），这些方法由于预定义本体、检索瓶颈和缺乏诊断逻辑而导致关键信息丢失。

为了应对这些挑战，RareDxR1采用了一种端到端的训练框架，通过协同知识内化和自主进化学习，绕过了对结构化表型和封闭集决策的依赖。该模型将零散的罕见病知识直接深度内化到模型参数中，从而克服了RAG和表型限制。研究团队设计了一种渐进式训练流程，首先通过知识内化使模型掌握海量罕见病知识，然后通过自主进化学习让模型在模拟诊断环境中不断自我改进。这种双阶段策略使得模型能够从失败中学习，逐步提升诊断能力。

此外，为了弥合模型生成与专家推理之间的差距，研究团队提出了反思增强推理采样（RERS）策略。该策略通过从失败中学习来合成专家级的诊断轨迹，且无需人工标注。具体来说，RERS首先让模型对病例进行初步诊断，然后对比正确结果，分析错误原因，并生成包含反思过程的诊断轨迹。这些轨迹随后被用于强化学习，使模型能够模仿专家的推理过程。同时，还引入了一种双级课程强化学习方法，用于逐步掌握罕见病诊断：第一级课程聚焦于常见罕见病的识别，第二级课程则挑战更罕见、更复杂的病例。

实验结果显示，RareDxR1在多个基准测试中达到了最先进的准确率，包括在DDXPlus、RareDis和CustomRare等数据集上的评估。与传统的RAG方法和基于表型提取的模型相比，RareDxR1在诊断准确性上提升了显著幅度，特别是在处理非结构化文本和罕见病例时表现出色。这一成果标志着开放域罕见病诊断领域的一项重大突破，证明了无需人工标注、直接从临床笔记中学习诊断推理的可行性。研究团队表示，他们的代码和数据集将公开发布，以促进该领域的进一步研究。该论文已被2026年IEEE国际多媒体与博览会（ICME）接收。