IMCBench:图像医学对话中的多模态大语言模型基准测试
IMCBench是一个新的基准测试,用于评估多模态大语言模型在图像辅助的医学对话中的表现。它结合真实临床图像和合成患者档案,模拟多回合医患互动,并从安全性、准确性和不确定性使用三个维度进行评估。结果表明,Claude Opus 4.6以3.61分领先,但所有模型在恶性或罕见疾病上安全性下降,且视觉输入和电子健康记录上下文对安全指导至关重要。
近年来,大型语言模型(LLM)和视觉语言模型(VLM)在多模态数据推理方面取得了显著进展,为临床应用(如决策支持和分诊)带来了新的机遇。然而,现有的医学AI基准测试存在碎片化问题:一些基准支持多轮对话但缺乏图像,另一些则提供多模态输入却专注于单轮问答任务。为了弥补这一空白,研究团队引入了IMCBench——一个基于图像的多回合医学对话基准测试。该基准将真实的、公开可用的临床图像与合成患者档案相结合,模拟现实的患者-临床医生互动。每个对话在三个临床维度上接受评估:安全性(即避免有害建议)、准确性(诊断和处理的正确性)以及诊断中不确定性的适当使用。
研究团队对来自四个模型家族(Claude、GPT、Nova和Llama)的八个多模态前沿模型进行了基准测试。他们使用基于LLM作为陪审团的评分方法,该方法经过专家临床医生注释校准,每个模型在1-5分制上评分。结果显示,Claude Opus 4.6获得了最高的总分(3.61),其次是Claude Sonnet 4.6(3.30)和GPT-5.2(3.29)。然而,没有任何模型在所有维度上占据主导地位。值得注意的是,在恶性疾病和罕见疾病中,所有模型的安全性均出现下降(各自Δ = -0.27),这表明即使是最先进的模型在处理高风险病例时仍需改进。
进一步的消融研究揭示了关键因素:视觉输入和电子健康记录(EHR)上下文都有助于安全指导。当移除视觉输入时,安全性平均下降0.18;当移除EHR上下文时,安全性下降0.23。此外,更强的模型能更有效地利用视觉特征。这些发现共同表明,准确的临床描述并不能保证安全的患者指导,这激发了在医学AI中采用多维度评估框架的需求。IMCBench的发布为未来医学对话系统的评估提供了更全面的工具,有助于推动模型在真实临床场景中的安全应用。