2026-06-30 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 15:53 UTC+8

IMCBench：影像醫學對話中的多模態大語言模型基準測試

IMCBench是一個新的基準測試，用於評估多模態大語言模型在影像輔助的醫學對話中的表現。它結合真實臨床影像和合成患者檔案，模擬多回合醫患互動，並從安全性、準確性和不確定性使用三個維度進行評估。結果表明，Claude Opus 4.6以3.61分領先，但所有模型在惡性或罕見疾病上安全性下降，且視覺輸入和電子健康記錄上下文對安全指導至關重要。

來源arXiv AI作者: Maria Xenochristou, Ashutosh Joshi, Korosh Vatanparvar, Mohammad Abuzar Hashemi, Prasad Kasu, Deepak Bansal, Anchal Nema, Nivedita Wadhwa, Prashams S Jain, Rebecca Abraham, Will Kimbrough, Dilek Hakkani-Tur, Wilko Schulz-Mahlendorf

近年來，大型語言模型（LLM）和視覺語言模型（VLM）在多模態資料推理方面取得了顯著進展，為臨床應用（如決策支援和分診）帶來了新的機遇。然而，現有的醫學AI基準測試存在碎片化問題：一些基準支援多輪對話但缺乏影像，另一些則提供多模態輸入卻專注於單輪問答任務。為了彌補這一空白，研究團隊引入了IMCBench——一個基於影像的多回合醫學對話基準測試。該基準將真實的、公開可用的臨床影像與合成患者檔案相結合，模擬現實的患者-臨床醫生互動。每個對話在三個臨床維度上接受評估：安全性（即避免有害建議）、準確性（診斷和處理的正確性）以及診斷中不確定性的適當使用。

研究團隊對來自四個模型家族（Claude、GPT、Nova和Llama）的八個多模態前沿模型進行了基準測試。他們使用基於LLM作為陪審團的評分方法，該方法經過專家臨床醫生註釋校準，每個模型在1-5分制上評分。結果顯示，Claude Opus 4.6獲得了最高的總分（3.61），其次是Claude Sonnet 4.6（3.30）和GPT-5.2（3.29）。然而，沒有任何模型在所有維度上佔據主導地位。值得注意的是，在惡性疾病和罕見疾病中，所有模型的安全性均出現下降（各自Δ = -0.27），這表明即使是最先進的模型在處理高風險病例時仍需改進。

進一步的消融研究揭示了關鍵因素：視覺輸入和電子健康記錄（EHR）上下文都有助於安全指導。當移除視覺輸入時，安全性平均下降0.18；當移除EHR上下文時，安全性下降0.23。此外，更強的模型能更有效地利用視覺特徵。這些發現共同表明，準確的臨床描述並不能保證安全的患者指導，這激發了在醫學AI中採用多維度評估框架的需求。IMCBench的釋出為未來醫學對話系統的評估提供了更全面的工具，有助於推動模型在真實臨床場景中的安全應用。