測試測試:類別分割異常檢測中的分數方向不穩定性
研究表明,在資料集內類別分割評估中,當保留的異常類與正常混合在表示空間重疊時,異常分數可能退化甚至反轉,且最優分數方向依賴於未知的異常類。作者提出了一種免訓練的“鄰域類洩漏”診斷方法,並在多個資料集和特徵空間上驗證了其對分數方向不穩定性的預測能力。結論是,類別分割異常檢測基準應被視為幾何依賴的應力測試,而非無條件的檢測能力證明。
一項新研究揭示了當前廣泛使用的異常檢測評估方法中存在的根本性缺陷。該研究將於2026年國際機器學習大會(ICML)的假設檢驗研討會上發表,挑戰了基於資料集內類別分割評估的主流實踐。
在機器學習領域,異常檢測通常透過將資料集劃分為若干類別,並保留其中一個類別作為“異常”,其餘作為“正常”來評估模型效能。這種類分割評估被視作完全無條件的分佈外異常檢測的代理方法。然而,來自研究團隊的新工作表明,這種協議可能根本不適定。
核心問題在於,當被保留的異常類在表示空間中與正常類的混合分佈存在重疊時,異常分數可能退化,甚至出現反轉。在這種幾何狀態下,理想情況下的高異常分數可能變得接近隨機猜測,或者更糟糕的是,分數方向完全顛倒——原本應指示異常的高分數反而對應正常樣本。更復雜的是,最優的分數方向依賴於未知的異常類別,這使得評估失去了客觀基準。
為了解決這一困境,研究人員引入了“鄰域類洩漏”(Neighborhood Class Leakage)這一簡單且無需訓練的診斷工具。透過在Fashion-MNIST、CIFAR-10和Imagenette資料集上的實驗,該診斷方法在原始畫素空間和變分自編碼器(VAE)潛在空間中都成功預測了分數方向的不穩定性。
論文的作者團隊來自多家機構,他們強調這些發現不應被視為對現有異常檢測方法能力的否定,而是提醒社群:類分割基準應被理解為幾何依賴的應力測試,而非無條件的效能證據。“當評估結果高度依賴於資料幾何結構時,我們需要重新思考這些基準究竟在測量什麼,”研究者在文中寫道。
該研究已在arXiv預印本釋出(arXiv:2606.02601),並獲得了ICML 2026研討會的接受。論文僅4頁篇幅,附有1張圖表,簡潔而有力地指出了這一領域的關鍵方法論問題。對於實踐者而言,這項工作的啟示是:在使用類分割評估時,必須檢查表示空間中的類別重疊情況,否則可能得出誤導性的結論。