AI News HubLIVE
站内改写1 分钟阅读

SlideCheck:通过数据集分布指导病理基础模型的自监督预训练

SlideCheck是一种轻量级工具,利用冻结的病理基础模型补丁特征对全切片图像中的异常和恶性进行评分,从而更好地控制预训练数据的组成。实验表明,SlideCheck定义的数据分布影响下游ViT预训练性能,策展的补丁子集可以达到全数据性能。

来源arXiv Computer Vision作者: Mingyi He, Xinyi Guo, Xitong Ling, Weiming Chen, Jiawen Li, Lianghui Zhu, Minxi Ouyang, Mingxi Fu, Yizhi Wang, Tian Guan

在病理基础模型开发中,模型通常在大规模全切片图像(WSI)提取的补丁上进行预训练。然而,数据构建时的监督信号往往局限于切片级别、稀疏或异质,这导致研究人员难以理解和控制哪些生物学模式进入预训练数据。这种不匹配使得模型可能在未充分筛选的数据上训练,从而影响下游任务的性能。针对这一问题,研究者提出了SlideCheck,一种轻量级的预训练数据指导工具。

SlideCheck基于冻结的病理基础模型的补丁特征,并非作为独立的补丁诊断模型,而是提供显式的异常和恶性评分,用于组织、过滤和审计病理预训练数据。该工具采用双头MLP分别建模广泛的异常形态和恶性证据,通过正则化的特征空间评分器提供补丁级证据估计的监督锚点,并利用评分-注意力一致性将补丁评分与WSI级别的多实例学习(MIL)注意力相结合,挖掘高置信度的伪标签。这种设计使得SlideCheck能够在不依赖额外标注的情况下,有效地区分正常组织与病变区域。

这些评分随后用于构建广泛阳性的ViT预训练子集,当异常或恶性证据超过阈值时选择该补丁。实验表明,SlideCheck定义的数据分布显著影响自监督ViT预训练的下游行为,表明生物学组成是病理基础模型开发中重要的可控因素。有趣的是,策展的子集可以接近全数据性能,暗示显式评分的补丁池可能支持更高效和可审计的预训练数据构建。这一发现为资源受限的场景提供了新思路,即通过数据筛选而非扩大规模来提升模型性能。

这些结果将SlideCheck定位为数据指导和审计层,用于将大规模无差异的补丁池转化为可控且可复用的预训练数据集。未来,该工具可能广泛应用于临床病理AI模型的开发,帮助研究者更好地理解数据分布与模型行为之间的关系,并推动更透明、可解释的病理基础模型构建。