AI News HubLIVE
サイト内リライト2 分で読了

IMCBench:画像に基づく医療対話におけるマルチモーダル大規模言語モデルのベンチマーク

IMCBenchは、画像に基づく医療対話におけるマルチモーダルLLMの評価のための新しいベンチマークです。実際の臨床画像と合成患者プロファイルを組み合わせて、マルチターンの医師-患者対話をシミュレートし、安全性、正確性、不確実性の適切な使用を評価します。結果では、Claude Opus 4.6が3.61/5で最高スコアを達成しましたが、悪性または稀な疾患では安全性が低下し、視覚入力とEHRコンテキストの両方が安全なガイダンスに重要であることが示されました。

ソースarXiv AI著者: Maria Xenochristou, Ashutosh Joshi, Korosh Vatanparvar, Mohammad Abuzar Hashemi, Prasad Kasu, Deepak Bansal, Anchal Nema, Nivedita Wadhwa, Prashams S Jain, Rebecca Abraham, Will Kimbrough, Dilek Hakkani-Tur, Wilko Schulz-Mahlendorf

近年、大規模言語モデル(LLM)と視覚言語モデル(VLM)はマルチモーダルデータの推論を可能にし、意思決定支援やトリアージなどの臨床応用に機会を提供しています。しかし、既存の医療AIベンチマークは断片化されています。一部はマルチターン対話をサポートしますが画像が不足しており、他はマルチモーダル入力を提供しますが単一ターンのQAタスクに焦点を当てています。このギャップを埋めるため、研究チームはIMCBenchを導入しました。これは、実際の公開臨床画像と合成患者プロファイルを組み合わせて、現実的な患者-臨床医の対話をシミュレートする、画像に基づくマルチターン医療対話ベンチマークです。各対話は、安全性(有害なアドバイスを避けること)、正確性(診断と治療の正しさ)、および診断における不確実性の適切な使用という3つの臨床次元で評価されます。

研究チームは、4つのモデルファミリー(Claude、GPT、Nova、Llama)にわたる8つのマルチモーダル最先端モデルをベンチマークしました。専門医のアノテーションに対して調整されたLLM-as-Juryスコアリングを使用し、各モデルを1-5のスケールで評価しました。結果は、Claude Opus 4.6が最も高い総合スコア(3.61)を達成し、それにClaude Sonnet 4.6(3.30)とGPT-5.2(3.29)が続くことを示しました。ただし、いずれのモデルもすべての次元で支配的ではなく、悪性および稀な疾患では安全性が低下しました(それぞれΔ = -0.27)。このことは、最先端のモデルでも高リスク症例では改善の余地があることを示しています。

アブレーション研究により、視覚入力と電子健康記録(EHR)コンテキストの両方が安全なガイダンスに寄与することが明らかになりました。視覚入力を削除した場合、安全性は平均0.18低下し、EHRコンテキストを削除した場合、0.23低下しました。さらに、より強力なモデルは視覚的特徴をより効果的に活用していました。これらの発見は、正確な臨床記述が安全な患者ガイダンスを保証しないことを示しており、医療AIにおける多次元評価フレームワークの必要性を動機付けています。IMCBenchのリリースは、将来の医療対話システムの評価に、より包括的なツールを提供し、実際の臨床シナリオでの安全な応用を促進します。