AI News HubLIVE
站内改写2 分钟阅读

EDEN:意大利语临床笔记的大规模语料库

EDEN(急诊科电子笔记)是一个新的大规模临床笔记语料库,包含约400万份来自意大利医院急诊科的完全匿名化笔记。其中约六千份笔记由临床专家手动标注,涉及呼吸困难和意识丧失两种患者情况,包含132个条目。该数据集旨在填补意大利语临床数据空白,支持大型语言模型在医疗领域的应用。

来源arXiv Computational Linguistics作者: Tiziano Labruna, Guido Bertolini, Pietro Ferrazzi, Bernardo Magnini

近日,由Tiziano Labruna及其合作者组成的团队在arXiv上发布了EDEN(Emergency Department Electronic Notes)语料库,这是意大利语领域首个大规模、全面匿名化的临床笔记数据集。EDEN语料库汇集了来自意大利多家医院急诊科的大约400万份临床笔记,这些笔记覆盖了患者在急诊科停留期间从初始评估到出院或转院的各个护理阶段。所有笔记都经过严格的现场匿名化处理,以保护患者隐私,确保研究人员能够合法使用这些数据。

为了提升数据集的实用价值,研究团队从400万份笔记中精心挑选了约六千份,并邀请多位临床专家通过结构化的病例报告表(CRF)进行手动标注。这个CRF包含了132个详细的条目,专门针对急诊科最常见的两种危重情况——呼吸困难和意识丧失。条目类型多样,包括数值型(例如血氧饱和度、心率)、分类型(例如意识水平分为清醒、嗜睡、昏迷等)、二元型(例如是否存在外伤)以及混合型。标注过程并非一蹴而就,而是经历了多轮迭代修订,多位临床医生共同参与讨论,旨在消除条目表述中的歧义,确保标注的一致性和准确性。最终形成的标注数据集虽然类别分布高度不平衡,但结构丰富,为训练和评估医疗领域的人工智能模型提供了宝贵的黄金标准。

EDEN的发布填补了意大利语医疗数据领域的重大空白。此前,尽管英语临床数据资源较多,但针对意大利语的大规模、高质量临床文本数据集几乎不存在。EDEN的出现使得研究人员能够在真实的意大利语临床场景中开发和测试大型语言模型(LLM),例如用于自动提取关键医疗信息、辅助临床决策、生成病历摘要等。此外,研究团队还基于EDEN提出了一个新的结构化信息提取基准任务——CRF填充(CRF-filling),即根据临床笔记自动填充CRF中的各项条目。他们使用Gemma-27B和MedGemma-27B模型在零样本设置下进行了基线实验,为后续研究提供了性能参考。据研究团队称,EDEN是迄今为止最大规模、完全免费开放的意大利语临床笔记语料库,对意大利乃至整个非英语世界的医疗AI研究具有里程碑式的意义。