自動報告推導的腫瘤學VQA基準:用於評估3D醫學影像視覺語言模型
本文提出一個自動化代理驅動流水線,直接從私有放射學報告和3D腫瘤學影像生成多項選擇VQA資料集,產生兩種互補問題型別:RADS風格問題和放射學報告推導問題。在四個內部癌症佇列上進行零樣本評估,發現沒有主導模型且所有單元存在巨大改進空間。盲法消融顯示視覺依賴高度特定於資料集:肝臟報告推導問題確實需要影像,而肺CT即使沒有影像也基本可解——領先的閉源模型在盲法下超過了其有視覺時的準確率。流水線作為開放代理技能釋出。
研究人員提出了一種自動化流水線,用於生成基於私有放射學報告和3D腫瘤學成像的多項選擇視覺問答(VQA)基準資料集。該流水線旨在解決現有公共基準在規模、人工標註成本和潛在資料洩漏方面的問題。它產生兩種互補的問題型別:一種是基於臨床定義的報告模式(如RADS評分)自動推導的確定性問題,另一種是由大型語言模型根據放射科醫生髮現生成並透過源報告驗證的問題。
應用此流水線到四個內部癌症佇列後,生成了一個無例項汙染控制的基準,無需每問題人工標註。對六個主流視覺語言模型的零樣本評估顯示,沒有單一模型在所有測試中佔據主導地位,且所有子任務都存在顯著的改進空間。更有趣的是,一項盲法消融實驗表明,視覺依賴性高度依賴於資料集:肝臟CT的報告推導問題確實需要影像資訊來回答,但對於肺CT,即使在沒有影像的情況下,領先的閉源模型仍能超過其有視覺時的準確率。這意味著即便使用私有臨床資料,也不能保證對視覺能力的無汙染評估。
該流水線已作為開放代理技能釋出,允許其他研究機構內部重新部署,以構建自己的基準。這一工作為醫療影像領域視覺語言模型的評估提供了可擴充套件、臨床相關且更可靠的方案。當前的研究還揭示了一個重要現象:在某些任務中,模型可能僅透過語言偏差就能達到較高準確率,這提醒我們在設計基準時需要更加謹慎地控制汙染因素。未來,團隊計劃擴充套件流水線以覆蓋更多腫瘤型別和成像模態,並探索如何更好地度量模型的真實視覺理解能力。