2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 15:53 UTC+8

IMCBench：图像医学对话中的多模态大语言模型基准测试

IMCBench是一个新的基准测试，用于评估多模态大语言模型在图像辅助的医学对话中的表现。它结合真实临床图像和合成患者档案，模拟多回合医患互动，并从安全性、准确性和不确定性使用三个维度进行评估。结果表明，Claude Opus 4.6以3.61分领先，但所有模型在恶性或罕见疾病上安全性下降，且视觉输入和电子健康记录上下文对安全指导至关重要。

来源arXiv AI作者: Maria Xenochristou, Ashutosh Joshi, Korosh Vatanparvar, Mohammad Abuzar Hashemi, Prasad Kasu, Deepak Bansal, Anchal Nema, Nivedita Wadhwa, Prashams S Jain, Rebecca Abraham, Will Kimbrough, Dilek Hakkani-Tur, Wilko Schulz-Mahlendorf

近年来，大型语言模型（LLM）和视觉语言模型（VLM）在多模态数据推理方面取得了显著进展，为临床应用（如决策支持和分诊）带来了新的机遇。然而，现有的医学AI基准测试存在碎片化问题：一些基准支持多轮对话但缺乏图像，另一些则提供多模态输入却专注于单轮问答任务。为了弥补这一空白，研究团队引入了IMCBench——一个基于图像的多回合医学对话基准测试。该基准将真实的、公开可用的临床图像与合成患者档案相结合，模拟现实的患者-临床医生互动。每个对话在三个临床维度上接受评估：安全性（即避免有害建议）、准确性（诊断和处理的正确性）以及诊断中不确定性的适当使用。

研究团队对来自四个模型家族（Claude、GPT、Nova和Llama）的八个多模态前沿模型进行了基准测试。他们使用基于LLM作为陪审团的评分方法，该方法经过专家临床医生注释校准，每个模型在1-5分制上评分。结果显示，Claude Opus 4.6获得了最高的总分（3.61），其次是Claude Sonnet 4.6（3.30）和GPT-5.2（3.29）。然而，没有任何模型在所有维度上占据主导地位。值得注意的是，在恶性疾病和罕见疾病中，所有模型的安全性均出现下降（各自Δ = -0.27），这表明即使是最先进的模型在处理高风险病例时仍需改进。

进一步的消融研究揭示了关键因素：视觉输入和电子健康记录（EHR）上下文都有助于安全指导。当移除视觉输入时，安全性平均下降0.18；当移除EHR上下文时，安全性下降0.23。此外，更强的模型能更有效地利用视觉特征。这些发现共同表明，准确的临床描述并不能保证安全的患者指导，这激发了在医学AI中采用多维度评估框架的需求。IMCBench的发布为未来医学对话系统的评估提供了更全面的工具，有助于推动模型在真实临床场景中的安全应用。