AI News HubLIVE
站内改写

放射科醫生讀片世界模型:用於醫學圖像表示學習

GazeWorld是一種醫學影像世界模型,將圖像視為世界,放射科醫生的注視序列視為軌跡。它通過自迴歸預測注視補丁的潛在表示,並用空間補全分支覆蓋未訪問區域。在推理時,僅從圖像生成補丁表示,無需真實注視數據。凍結的GazeWorld特徵在CheXpert、RSNA肺炎和SIIM-ACR氣胸數據集上取得了所有九項監督設置的最新診斷準確率,以及所有三個基準的最佳零樣本準確率。在GazeSearch基準上,基於相同凍結特徵的通用解碼器在ScanMatch和SED指標上分別比專用模型LogitGaze-Med高出16%和22%。該工作表明,建模專家如何讀片,而非僅關注其結論,為醫學影像AI提供了一種有前景的預訓練範式。

文章情報

工程師進階

要點

  • GazeWorld利用放射科醫生的眼動追蹤數據作為讀片軌跡,通過自迴歸預測和空間補全學習表示。
  • 在推理時無需真實注視數據,僅從圖像生成補丁序列。
  • 凍結特徵在多個醫學影像基準上達到最高診斷和零樣本準確率。
  • GazeSearch任務中,通用解碼器顯著優於專用模型LogitGaze-Med。

為甚麼重要

這條新聞值得關注,因為GazeWorld利用放射科醫生的眼動追蹤數據作為讀片軌跡,通過自迴歸預測和空間補全學習表示。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

近日,arXiv預印本發表了一篇題為“A World Model of Radiologist Reading for Medical Image Representation Learning”的研究論文,提出了一種名為GazeWorld的醫學影像世界模型。該模型創新性地利用放射科醫生的眼動追蹤數據,將圖像視為一個世界,而醫生的注視序列則是在這個世界中的軌跡。通過自迴歸方式預測下一個注視補丁的潛在表示,並結合空間補全分支處理未訪問區域,GazeWorld在無需真實注視數據的情況下,僅從圖像本身就能生成一系列補丁表示。

實驗結果顯示,GazeWorld的凍結特徵在CheXpert、RSNA肺炎和SIIM-ACR氣胸數據集上的所有九項監督設置中均取得了最先進的診斷準確率,同時在三項基準測試中獲得了最高的零樣本準確率。更令人矚目的是,在GazeSearch基準上,基於相同凍結特徵的通用解碼器在ScanMatch和SED指標上分別比專為預測注視而設計的LogitGaze-Med模型高出16%和22%,儘管它並未經過明確的注視預測訓練。

GazeWorld的研究表明,建模專家如何閲讀醫學圖像,而非僅僅關注其最終診斷結論,是一種極具潛力的預訓練範式。這一方法不僅提升了診斷準確性,還為醫學影像AI的發展開闢了新的方向。該方法的核心在於,通過捕捉放射科醫生在閲片過程中的視覺搜索模式和注意力轉移,模型能夠學習到更豐富的圖像特徵表示,從而在多種診斷任務上取得優異表現。此外,GazeWorld的推理階段不需要實時的眼動追蹤數據,這意味着它可以部署在現有的臨牀工作流程中,無需額外設備。未來,這一範式有望擴展到其他醫學影像領域,如病理學或皮膚科,甚至可能應用於需要專家視覺檢查的工業檢測場景。