可能还是确定?评估临床文本中诊断不确定性保留的基准
大型语言模型(LLM)越来越多地用于临床文本任务,但它们在保留诊断不确定性方面表现不佳。本研究构建了一个包含1,200份临床文档和9,184个不确定性标注的基准,评估了三个LLM,发现它们保留原始不确定性线索的比例不到一半,且难以区分相邻级别。
近年来,大型语言模型(LLM)在临床文本处理中得到了广泛应用,包括总结和修订医疗记录。然而,这些模型在保留诊断不确定性方面的表现尚未得到充分研究。诊断不确定性,如“可能肺炎”或“明确肺炎”,对于指导后续检查和治疗至关重要。即使是细微的变化也可能完全改变临床含义。例如,“可能肺炎”暗示需要进一步检查,而“明确肺炎”则可能直接启动治疗。如果LLM在改写时错误地将“可能”改为“明确”,可能导致不必要的激进治疗或遗漏必要的检查。
为了系统评估这一问题,研究人员构建了一个包含1,200份临床文档的基准数据集,其中包含9,184个不确定性标注,涵盖五个级别:确定、很可能、可能、不太可能、排除。这些文档来自多种临床场景,确保了数据的多样性和代表性。每个标注都经过专家审核,保证了标注的可靠性。
研究团队评估了三种主流的LLM,测试其在保留原始不确定性线索方面的能力。实验设计包括让LLM执行文本总结和修订任务,然后比较输出与原始文本中不确定性表达的一致性。结果显示,LLM保留原始不确定性线索的比例不到一半。它们经常改变不确定性的级别,尤其是在相邻级别之间,例如将“可能”改为“很可能”或反之。这种错误模式在标准评估指标(如流畅性和连贯性)中并未被捕获,因为这些指标只关注文本的表面质量,而忽略了临床语义的准确性。
该研究揭示了LLM在临床文本处理中的一个关键失败模式,强调了在临床工作流程中安全部署LLM时需要特别关注不确定性保留。研究者希望这个基准能够推动未来模型在医疗领域的改进,确保自动生成的临床文本不会误导临床决策。这项工作对于医疗信息学、自然语言处理以及人工智能安全领域都具有重要意义。