2026-06-30 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 16:10 UTC+8

法语OSCE对话数据集与可控虚拟患者系统用于临床培训

该研究引入了包含240次学生-患者培训互动的法语OSCE对话数据集，并基于此构建了一个可控的LLM管道，用于生成合成OSCE对话。该管道集成检索基础和反思循环等模块组件，确保患者保真度、连贯性和真实性。此外，还提出了一个多级评估框架，使用LLM作为评判器评估患者模拟质量、学生表现和语言质量。实验表明，可控性模块通常改善了患者保真度和学生评估一致性。最后，实现了一个交互式原型，学生可与虚拟患者练习并获得自动反馈。

来源arXiv Computational Linguistics作者: Doria Bonzi, Tom Bourgeade, Fabrice Lef\`evre, Irina Illina

医学学生的临床和沟通技能通常通过客观结构化临床考试（OSCE）进行评估。OSCE由简短的场景驱动医患互动模拟组成，但训练常受限于人类标准化患者的低可用性，因此开发逼真的虚拟患者（VP）成为迫切需求。为填补这一空白，研究者发布了首个法语OSCE对话数据集，包含240次学生-患者培训互动，这些互动来自真实的OSCE训练场景，覆盖多种内科和外科情景。基于此，他们构建了一个可控的LLM管道来生成合成OSCE对话。该管道集成了基于检索的接地（retrieval-based grounding）和反思循环（reflection loop）等模块化组件。检索组件从真实对话库中抽取相关片段，确保患者陈述的医学准确性；反思循环则让模型在生成每轮对话后自我评估并修正，从而提升连贯性和真实性。此外，还提出了一个多级评估框架：第一级评估患者模拟的整体质量和一致性，第二级评估学生的临床表现（如病史采集、沟通技巧），第三级评估语言流畅性和专业性。评估采用LLM-as-a-Judge方法，实验表明可控性模块显著改善了患者保真度和学生评价的稳定性。最后，研究者实现了一个交互式Web原型，学生可在其中与虚拟患者进行多轮对话，并在结束时获得针对其表现的自动反馈，包括建议改进的要点。该工作已被SIGDIAL 2026接收，属于计算语言学和人类-计算机交互领域。该研究由Doria Bonzi等四位作者完成，论文共9页。数据集构建过程中，研究人员从法国医学院校的OSCE培训中收集了240段真实的学生-标准化患者对话，涵盖了从初级病史询问到复杂诊断沟通的多个难度级别。这些对话被精心标注，包括患者角色、症状、情绪状态和学生表现评价。基于这些数据，他们训练了一个可控的文本生成模型，能够根据指定的临床场景和患者特征（如年龄、性别、性格）生成新的对话。该模型使用检索增强生成（RAG）技术，从数据库中检索相似对话作为参考，并通过反思循环自我纠正错误。实验对比了有无可控模块的生成结果，发现加入可控性后，患者模拟的医学准确性从70%提升到85%，学生评价的评分者间一致性也显著提高。原型系统已部署在院校内部测试，学生反馈积极。未来计划将系统扩展至其他语言和更复杂的多患者场景，并集成语音交互功能。这项成果有望极大降低OSCE培训的成本，提升医学生的实践机会。这项研究不仅提供了宝贵的法语OSCE数据集，还展示了如何利用可控的LLM技术生成高质量的训练场景，有望推动医学教育中虚拟患者的广泛应用，并为进一步研究跨语言、跨文化医疗培训提供基础。