2026-06-18站内改写1 分钟阅读更新: 2026-06-18

可能还是确定？评估临床文本中诊断不确定性保留的基准

大型语言模型（LLM）越来越多地用于临床文本任务，但它们在保留诊断不确定性方面表现不佳。本研究构建了一个包含1,200份临床文档和9,184个不确定性标注的基准，评估了三个LLM，发现它们保留原始不确定性线索的比例不到一半，且难以区分相邻级别。

来源arXiv Computational Linguistics作者: Hongbo Du, Zixin Lu, Jiaming Qu

近年来，大型语言模型（LLM）在临床文本处理中得到了广泛应用，包括总结和修订医疗记录。然而，这些模型在保留诊断不确定性方面的表现尚未得到充分研究。诊断不确定性，如“可能肺炎”或“明确肺炎”，对于指导后续检查和治疗至关重要。即使是细微的变化也可能完全改变临床含义。例如，“可能肺炎”暗示需要进一步检查，而“明确肺炎”则可能直接启动治疗。如果LLM在改写时错误地将“可能”改为“明确”，可能导致不必要的激进治疗或遗漏必要的检查。

为了系统评估这一问题，研究人员构建了一个包含1,200份临床文档的基准数据集，其中包含9,184个不确定性标注，涵盖五个级别：确定、很可能、可能、不太可能、排除。这些文档来自多种临床场景，确保了数据的多样性和代表性。每个标注都经过专家审核，保证了标注的可靠性。

研究团队评估了三种主流的LLM，测试其在保留原始不确定性线索方面的能力。实验设计包括让LLM执行文本总结和修订任务，然后比较输出与原始文本中不确定性表达的一致性。结果显示，LLM保留原始不确定性线索的比例不到一半。它们经常改变不确定性的级别，尤其是在相邻级别之间，例如将“可能”改为“很可能”或反之。这种错误模式在标准评估指标（如流畅性和连贯性）中并未被捕获，因为这些指标只关注文本的表面质量，而忽略了临床语义的准确性。

该研究揭示了LLM在临床文本处理中的一个关键失败模式，强调了在临床工作流程中安全部署LLM时需要特别关注不确定性保留。研究者希望这个基准能够推动未来模型在医疗领域的改进，确保自动生成的临床文本不会误导临床决策。这项工作对于医疗信息学、自然语言处理以及人工智能安全领域都具有重要意义。