2026-05-26 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

放射科醫生讀片世界模型：用於醫學圖像表示學習

GazeWorld是一種醫學影像世界模型，將圖像視為世界，放射科醫生的注視序列視為軌跡。它通過自迴歸預測注視補丁的潛在表示，並用空間補全分支覆蓋未訪問區域。在推理時，僅從圖像生成補丁表示，無需真實注視數據。凍結的GazeWorld特徵在CheXpert、RSNA肺炎和SIIM-ACR氣胸數據集上取得了所有九項監督設置的最新診斷準確率，以及所有三個基準的最佳零樣本準確率。在GazeSearch基準上，基於相同凍結特徵的通用解碼器在ScanMatch和SED指標上分別比專用模型LogitGaze-Med高出16%和22%。該工作表明，建模專家如何讀片，而非僅關注其結論，為醫學影像AI提供了一種有前景的預訓練範式。

來源arXiv Computer Vision作者: Yiwei Li, Zihao Wu, Huaqin Zhao, Yifan Zhou, Chao Cao, Dajiang Zhu, Tianming Liu, Lin Zhao

近日，arXiv預印本發表了一篇題為“A World Model of Radiologist Reading for Medical Image Representation Learning”的研究論文，提出了一種名為GazeWorld的醫學影像世界模型。該模型創新性地利用放射科醫生的眼動追蹤數據，將圖像視為一個世界，而醫生的注視序列則是在這個世界中的軌跡。通過自迴歸方式預測下一個注視補丁的潛在表示，並結合空間補全分支處理未訪問區域，GazeWorld在無需真實注視數據的情況下，僅從圖像本身就能生成一系列補丁表示。

實驗結果顯示，GazeWorld的凍結特徵在CheXpert、RSNA肺炎和SIIM-ACR氣胸數據集上的所有九項監督設置中均取得了最先進的診斷準確率，同時在三項基準測試中獲得了最高的零樣本準確率。更令人矚目的是，在GazeSearch基準上，基於相同凍結特徵的通用解碼器在ScanMatch和SED指標上分別比專為預測注視而設計的LogitGaze-Med模型高出16%和22%，儘管它並未經過明確的注視預測訓練。

GazeWorld的研究表明，建模專家如何閲讀醫學圖像，而非僅僅關注其最終診斷結論，是一種極具潛力的預訓練範式。這一方法不僅提升了診斷準確性，還為醫學影像AI的發展開闢了新的方向。該方法的核心在於，通過捕捉放射科醫生在閲片過程中的視覺搜索模式和注意力轉移，模型能夠學習到更豐富的圖像特徵表示，從而在多種診斷任務上取得優異表現。此外，GazeWorld的推理階段不需要實時的眼動追蹤數據，這意味着它可以部署在現有的臨牀工作流程中，無需額外設備。未來，這一範式有望擴展到其他醫學影像領域，如病理學或皮膚科，甚至可能應用於需要專家視覺檢查的工業檢測場景。