放射科医生读片世界模型:用于医学图像表示学习
GazeWorld是一种医学影像世界模型,将图像视为世界,放射科医生的注视序列视为轨迹。它通过自回归预测注视补丁的潜在表示,并用空间补全分支覆盖未访问区域。在推理时,仅从图像生成补丁表示,无需真实注视数据。冻结的GazeWorld特征在CheXpert、RSNA肺炎和SIIM-ACR气胸数据集上取得了所有九项监督设置的最新诊断准确率,以及所有三个基准的最佳零样本准确率。在GazeSearch基准上,基于相同冻结特征的通用解码器在ScanMatch和SED指标上分别比专用模型LogitGaze-Med高出16%和22%。该工作表明,建模专家如何读片,而非仅关注其结论,为医学影像AI提供了一种有前景的预训练范式。
文章情报
要点
- GazeWorld利用放射科医生的眼动追踪数据作为读片轨迹,通过自回归预测和空间补全学习表示。
- 在推理时无需真实注视数据,仅从图像生成补丁序列。
- 冻结特征在多个医学影像基准上达到最高诊断和零样本准确率。
- GazeSearch任务中,通用解码器显著优于专用模型LogitGaze-Med。
为什么重要
这条新闻值得关注,因为GazeWorld利用放射科医生的眼动追踪数据作为读片轨迹,通过自回归预测和空间补全学习表示。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
近日,arXiv预印本发表了一篇题为“A World Model of Radiologist Reading for Medical Image Representation Learning”的研究论文,提出了一种名为GazeWorld的医学影像世界模型。该模型创新性地利用放射科医生的眼动追踪数据,将图像视为一个世界,而医生的注视序列则是在这个世界中的轨迹。通过自回归方式预测下一个注视补丁的潜在表示,并结合空间补全分支处理未访问区域,GazeWorld在无需真实注视数据的情况下,仅从图像本身就能生成一系列补丁表示。
实验结果显示,GazeWorld的冻结特征在CheXpert、RSNA肺炎和SIIM-ACR气胸数据集上的所有九项监督设置中均取得了最先进的诊断准确率,同时在三项基准测试中获得了最高的零样本准确率。更令人瞩目的是,在GazeSearch基准上,基于相同冻结特征的通用解码器在ScanMatch和SED指标上分别比专为预测注视而设计的LogitGaze-Med模型高出16%和22%,尽管它并未经过明确的注视预测训练。
GazeWorld的研究表明,建模专家如何阅读医学图像,而非仅仅关注其最终诊断结论,是一种极具潜力的预训练范式。这一方法不仅提升了诊断准确性,还为医学影像AI的发展开辟了新的方向。该方法的核心在于,通过捕捉放射科医生在阅片过程中的视觉搜索模式和注意力转移,模型能够学习到更丰富的图像特征表示,从而在多种诊断任务上取得优异表现。此外,GazeWorld的推理阶段不需要实时的眼动追踪数据,这意味着它可以部署在现有的临床工作流程中,无需额外设备。未来,这一范式有望扩展到其他医学影像领域,如病理学或皮肤科,甚至可能应用于需要专家视觉检查的工业检测场景。