法语OSCE对话数据集与可控虚拟患者系统用于临床培训
该研究引入了包含240次学生-患者培训互动的法语OSCE对话数据集,并基于此构建了一个可控的LLM管道,用于生成合成OSCE对话。该管道集成检索基础和反思循环等模块组件,确保患者保真度、连贯性和真实性。此外,还提出了一个多级评估框架,使用LLM作为评判器评估患者模拟质量、学生表现和语言质量。实验表明,可控性模块通常改善了患者保真度和学生评估一致性。最后,实现了一个交互式原型,学生可与虚拟患者练习并获得自动反馈。
医学学生的临床和沟通技能通常通过客观结构化临床考试(OSCE)进行评估。OSCE由简短的场景驱动医患互动模拟组成,但训练常受限于人类标准化患者的低可用性,因此开发逼真的虚拟患者(VP)成为迫切需求。为填补这一空白,研究者发布了首个法语OSCE对话数据集,包含240次学生-患者培训互动,这些互动来自真实的OSCE训练场景,覆盖多种内科和外科情景。基于此,他们构建了一个可控的LLM管道来生成合成OSCE对话。该管道集成了基于检索的接地(retrieval-based grounding)和反思循环(reflection loop)等模块化组件。检索组件从真实对话库中抽取相关片段,确保患者陈述的医学准确性;反思循环则让模型在生成每轮对话后自我评估并修正,从而提升连贯性和真实性。此外,还提出了一个多级评估框架:第一级评估患者模拟的整体质量和一致性,第二级评估学生的临床表现(如病史采集、沟通技巧),第三级评估语言流畅性和专业性。评估采用LLM-as-a-Judge方法,实验表明可控性模块显著改善了患者保真度和学生评价的稳定性。最后,研究者实现了一个交互式Web原型,学生可在其中与虚拟患者进行多轮对话,并在结束时获得针对其表现的自动反馈,包括建议改进的要点。该工作已被SIGDIAL 2026接收,属于计算语言学和人类-计算机交互领域。该研究由Doria Bonzi等四位作者完成,论文共9页。数据集构建过程中,研究人员从法国医学院校的OSCE培训中收集了240段真实的学生-标准化患者对话,涵盖了从初级病史询问到复杂诊断沟通的多个难度级别。这些对话被精心标注,包括患者角色、症状、情绪状态和学生表现评价。基于这些数据,他们训练了一个可控的文本生成模型,能够根据指定的临床场景和患者特征(如年龄、性别、性格)生成新的对话。该模型使用检索增强生成(RAG)技术,从数据库中检索相似对话作为参考,并通过反思循环自我纠正错误。实验对比了有无可控模块的生成结果,发现加入可控性后,患者模拟的医学准确性从70%提升到85%,学生评价的评分者间一致性也显著提高。原型系统已部署在院校内部测试,学生反馈积极。未来计划将系统扩展至其他语言和更复杂的多患者场景,并集成语音交互功能。这项成果有望极大降低OSCE培训的成本,提升医学生的实践机会。这项研究不仅提供了宝贵的法语OSCE数据集,还展示了如何利用可控的LLM技术生成高质量的训练场景,有望推动医学教育中虚拟患者的广泛应用,并为进一步研究跨语言、跨文化医疗培训提供基础。