2026-05-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

放射科医生读片世界模型：用于医学图像表示学习

GazeWorld是一种医学影像世界模型，将图像视为世界，放射科医生的注视序列视为轨迹。它通过自回归预测注视补丁的潜在表示，并用空间补全分支覆盖未访问区域。在推理时，仅从图像生成补丁表示，无需真实注视数据。冻结的GazeWorld特征在CheXpert、RSNA肺炎和SIIM-ACR气胸数据集上取得了所有九项监督设置的最新诊断准确率，以及所有三个基准的最佳零样本准确率。在GazeSearch基准上，基于相同冻结特征的通用解码器在ScanMatch和SED指标上分别比专用模型LogitGaze-Med高出16%和22%。该工作表明，建模专家如何读片，而非仅关注其结论，为医学影像AI提供了一种有前景的预训练范式。

来源arXiv Computer Vision作者: Yiwei Li, Zihao Wu, Huaqin Zhao, Yifan Zhou, Chao Cao, Dajiang Zhu, Tianming Liu, Lin Zhao

近日，arXiv预印本发表了一篇题为“A World Model of Radiologist Reading for Medical Image Representation Learning”的研究论文，提出了一种名为GazeWorld的医学影像世界模型。该模型创新性地利用放射科医生的眼动追踪数据，将图像视为一个世界，而医生的注视序列则是在这个世界中的轨迹。通过自回归方式预测下一个注视补丁的潜在表示，并结合空间补全分支处理未访问区域，GazeWorld在无需真实注视数据的情况下，仅从图像本身就能生成一系列补丁表示。

实验结果显示，GazeWorld的冻结特征在CheXpert、RSNA肺炎和SIIM-ACR气胸数据集上的所有九项监督设置中均取得了最先进的诊断准确率，同时在三项基准测试中获得了最高的零样本准确率。更令人瞩目的是，在GazeSearch基准上，基于相同冻结特征的通用解码器在ScanMatch和SED指标上分别比专为预测注视而设计的LogitGaze-Med模型高出16%和22%，尽管它并未经过明确的注视预测训练。

GazeWorld的研究表明，建模专家如何阅读医学图像，而非仅仅关注其最终诊断结论，是一种极具潜力的预训练范式。这一方法不仅提升了诊断准确性，还为医学影像AI的发展开辟了新的方向。该方法的核心在于，通过捕捉放射科医生在阅片过程中的视觉搜索模式和注意力转移，模型能够学习到更丰富的图像特征表示，从而在多种诊断任务上取得优异表现。此外，GazeWorld的推理阶段不需要实时的眼动追踪数据，这意味着它可以部署在现有的临床工作流程中，无需额外设备。未来，这一范式有望扩展到其他医学影像领域，如病理学或皮肤科，甚至可能应用于需要专家视觉检查的工业检测场景。