IMCBench:影像醫學對話中的多模態大語言模型基準測試
IMCBench是一個新的基準測試,用於評估多模態大語言模型在影像輔助的醫學對話中的表現。它結合真實臨床影像和合成患者檔案,模擬多回合醫患互動,並從安全性、準確性和不確定性使用三個維度進行評估。結果表明,Claude Opus 4.6以3.61分領先,但所有模型在惡性或罕見疾病上安全性下降,且視覺輸入和電子健康記錄上下文對安全指導至關重要。
近年來,大型語言模型(LLM)和視覺語言模型(VLM)在多模態資料推理方面取得了顯著進展,為臨床應用(如決策支援和分診)帶來了新的機遇。然而,現有的醫學AI基準測試存在碎片化問題:一些基準支援多輪對話但缺乏影像,另一些則提供多模態輸入卻專注於單輪問答任務。為了彌補這一空白,研究團隊引入了IMCBench——一個基於影像的多回合醫學對話基準測試。該基準將真實的、公開可用的臨床影像與合成患者檔案相結合,模擬現實的患者-臨床醫生互動。每個對話在三個臨床維度上接受評估:安全性(即避免有害建議)、準確性(診斷和處理的正確性)以及診斷中不確定性的適當使用。
研究團隊對來自四個模型家族(Claude、GPT、Nova和Llama)的八個多模態前沿模型進行了基準測試。他們使用基於LLM作為陪審團的評分方法,該方法經過專家臨床醫生註釋校準,每個模型在1-5分制上評分。結果顯示,Claude Opus 4.6獲得了最高的總分(3.61),其次是Claude Sonnet 4.6(3.30)和GPT-5.2(3.29)。然而,沒有任何模型在所有維度上佔據主導地位。值得注意的是,在惡性疾病和罕見疾病中,所有模型的安全性均出現下降(各自Δ = -0.27),這表明即使是最先進的模型在處理高風險病例時仍需改進。
進一步的消融研究揭示了關鍵因素:視覺輸入和電子健康記錄(EHR)上下文都有助於安全指導。當移除視覺輸入時,安全性平均下降0.18;當移除EHR上下文時,安全性下降0.23。此外,更強的模型能更有效地利用視覺特徵。這些發現共同表明,準確的臨床描述並不能保證安全的患者指導,這激發了在醫學AI中採用多維度評估框架的需求。IMCBench的釋出為未來醫學對話系統的評估提供了更全面的工具,有助於推動模型在真實臨床場景中的安全應用。