自動報告推導的腫瘤學VQA基準:用於評估3D醫學影像視覺語言模型
本文提出一個自動化代理驅動流水線,直接從私有放射學報告和3D腫瘤學影像生成多項選擇VQA數據集,產生兩種互補問題類型:RADS風格問題和放射學報告推導問題。在四個內部癌症隊列上進行零樣本評估,發現沒有主導模型且所有單元存在巨大改進空間。盲法消融顯示視覺依賴高度特定於數據集:肝臟報告推導問題確實需要圖像,而肺CT即使沒有圖像也基本可解——領先的閉源模型在盲法下超過了其有視覺時的準確率。流水線作為開放代理技能發佈。
研究人員提出了一種自動化流水線,用於生成基於私有放射學報告和3D腫瘤學成像的多項選擇視覺問答(VQA)基準數據集。該流水線旨在解決現有公共基準在規模、人工標註成本和潛在數據泄漏方面的問題。它產生兩種互補的問題類型:一種是基於臨牀定義的報告模式(如RADS評分)自動推導的確定性問題,另一種是由大型語言模型根據放射科醫生髮現生成並通過源報告驗證的問題。
應用此流水線到四個內部癌症隊列後,生成了一個無實例污染控制的基準,無需每問題人工標註。對六個主流視覺語言模型的零樣本評估顯示,沒有單一模型在所有測試中佔據主導地位,且所有子任務都存在顯著的改進空間。更有趣的是,一項盲法消融實驗表明,視覺依賴性高度依賴於數據集:肝臟CT的報告推導問題確實需要圖像信息來回答,但對於肺CT,即使在沒有圖像的情況下,領先的閉源模型仍能超過其有視覺時的準確率。這意味着即便使用私有臨牀數據,也不能保證對視覺能力的無污染評估。
該流水線已作為開放代理技能發佈,允許其他研究機構內部重新部署,以構建自己的基準。這一工作為醫療影像領域視覺語言模型的評估提供了可擴展、臨牀相關且更可靠的方案。當前的研究還揭示了一個重要現象:在某些任務中,模型可能僅通過語言偏差就能達到較高準確率,這提醒我們在設計基準時需要更加謹慎地控制污染因素。未來,團隊計劃擴展流水線以覆蓋更多腫瘤類型和成像模態,並探索如何更好地度量模型的真實視覺理解能力。