2026-06-09站内改写1 分钟阅读更新: 2026-06-09

SENTRY：视觉Transformer在软错误下的统计可靠性分析

本研究提出SENTRY框架，利用有限种群抽样理论对视觉Transformer（ViT）进行统计故障注入，以极少的样本即可在99%置信度下将故障率控制在1%误差范围内，实验成本降低高达10700倍。研究发现，虽然仅3%的FP32位翻转导致故障，但这些故障几乎都会造成灾难性的精度崩塌，且脆弱性主要集中在归一化层和IEEE-754格式的关键指数位。

来源arXiv Computer Vision作者: Pramit Kumar Bhaduri, Mahdi Taheri, Samira Nazari, Maksim Jenihhin, Christian Herglotz, Michael Hubner

随着视觉Transformer（ViT）在自动驾驶、医学影像等安全关键领域的广泛应用，确保其在软错误（即硬件瞬时故障）下的可靠性变得至关重要。尽管ViT在图像分类、目标检测等任务上取得了最先进的性能，但其庞大的参数数量（动辄数百万甚至数十亿）使得传统的穷举故障注入方法变得极其昂贵甚至不可行。为了弥补这一关键差距，来自多个研究机构的研究人员提出了SENTRY框架，一种基于有限种群抽样理论的统计故障注入方法，旨在为ViT的可靠性评估提供严格的数学保证。

SENTRY的核心创新在于，它将故障注入过程建模为从有限种群中抽样的统计问题。研究人员证明，无论模型规模多大，仅需数千个随机采样的位翻转测试，就能以99%的置信度将实际故障率估计的误差范围控制在1%以内。这一发现极大降低了可靠性测试的实验成本：与需要测试所有参数的穷举方法相比，SENTRY最多可降低10,700倍的实验开销。更重要的是，这种方法并没有牺牲定位漏洞的能力——它仍然能够精确识别架构中哪些层或参数对故障最为敏感。

为了验证该方法，研究团队对ViT-Tiny和ViT-Small等多种流行的ViT架构进行了全面评估，揭示了一个高度非均匀的可靠性分布：在FP32数据的位翻转中，仅有约3%的比特翻转会导致模型输出错误（即故障），但这部分故障位的影响却是灾难性的——几乎100%导致模型精度的大幅下降。进一步的细致分析将最大的脆弱性定位到归一化层（LayerNorm等）和IEEE-754浮点格式中的关键指数位。这些发现为设计更为鲁棒的、适合边缘部署的ViT架构提供了数学依据和可操作的指导。例如，在硬件设计时优先保护指数位，或在归一化层应用随机屏蔽等加固技术。

这项研究的意义在于，它不仅提供了一种高效的可靠性评估工具，还通过深入理解ViT的故障模式，为未来安全关键应用中部署视觉Transformer奠定了可靠性的理论基础。