2026-06-09站内改写1 分鐘閱讀更新: 2026-06-09

SENTRY：視覺Transformer在軟錯誤下的統計可靠性分析

本研究提出SENTRY框架，利用有限種群抽樣理論對視覺Transformer（ViT）進行統計故障注入，以極少的樣本即可在99%置信度下將故障率控制在1%誤差範圍內，實驗成本降低高達10700倍。研究發現，雖然僅3%的FP32位翻轉導致故障，但這些故障幾乎都會造成災難性的精度崩塌，且脆弱性主要集中在歸一化層和IEEE-754格式的關鍵指數位。

來源arXiv Computer Vision作者: Pramit Kumar Bhaduri, Mahdi Taheri, Samira Nazari, Maksim Jenihhin, Christian Herglotz, Michael Hubner

隨著視覺Transformer（ViT）在自動駕駛、醫學影像等安全關鍵領域的廣泛應用，確保其在軟錯誤（即硬體瞬時故障）下的可靠性變得至關重要。儘管ViT在影像分類、目標檢測等任務上取得了最先進的效能，但其龐大的引數數量（動輒數百萬甚至數十億）使得傳統的窮舉故障注入方法變得極其昂貴甚至不可行。為了彌補這一關鍵差距，來自多個研究機構的研究人員提出了SENTRY框架，一種基於有限種群抽樣理論的統計故障注入方法，旨在為ViT的可靠性評估提供嚴格的數學保證。

SENTRY的核心創新在於，它將故障注入過程建模為從有限種群中抽樣的統計問題。研究人員證明，無論模型規模多大，僅需數千個隨機取樣的位翻轉測試，就能以99%的置信度將實際故障率估計的誤差範圍控制在1%以內。這一發現極大降低了可靠性測試的實驗成本：與需要測試所有引數的窮舉方法相比，SENTRY最多可降低10,700倍的實驗開銷。更重要的是，這種方法並沒有犧牲定位漏洞的能力——它仍然能夠精確識別架構中哪些層或引數對故障最為敏感。

為了驗證該方法，研究團隊對ViT-Tiny和ViT-Small等多種流行的ViT架構進行了全面評估，揭示了一個高度非均勻的可靠性分佈：在FP32資料的位翻轉中，僅有約3%的位元翻轉會導致模型輸出錯誤（即故障），但這部分故障位的影響卻是災難性的——幾乎100%導致模型精度的大幅下降。進一步的細緻分析將最大的脆弱性定位到歸一化層（LayerNorm等）和IEEE-754浮點格式中的關鍵指數位。這些發現為設計更為魯棒的、適合邊緣部署的ViT架構提供了數學依據和可操作的指導。例如，在硬體設計時優先保護指數位，或在歸一化層應用隨機遮蔽等加固技術。

這項研究的意義在於，它不僅提供了一種高效的可靠性評估工具，還透過深入理解ViT的故障模式，為未來安全關鍵應用中部署視覺Transformer奠定了可靠性的理論基礎。