2026-07-02 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-02 16:01 UTC+8

SemiScope：解耦半監督安全分類中的分類器調優與聯合優化

該研究通過SemiScope框架解耦半監督學習（SSL）管道中的分類器調優與聯合優化效果，發現僅使用貝葉斯優化調優分類器即可恢復86%的性能提升，簡化策略與完整聯合優化效果相當。

來源arXiv Machine Learning作者: Rui Shu, Tianpei Xia, Jingzhu He

在安全分類任務中，標註數據稀缺問題普遍存在，半監督學習（SSL）通過從小標註池向大規模未標註池傳播標籤來緩解這一問題。然而，現有安全應用常將SSL當作黑盒使用，採用默認參數、固定分類器，且未處理偽標籤導致的類別不平衡。近年來，一些研究聲稱通過對SSL管道進行聯合搜索、AutoML或逐組件調優可獲得顯著收益，但這些收益的真實來源難以歸因：究竟是有益的SSL-分類器交互，還是僅僅來自下游分類器的調優？

為回答這一問題，Rui Shu 等研究者構建了SemiScope——一個分析工具而非部署推薦。SemiScope 使用貝葉斯優化聯合調優SSL設置、置信度過濾、過採樣和分類器。其核心對比實驗“Tuned-Clf”固定SSL為默認設置，但給予與SemiScope相同的100次分類器調優預算和驗證集閾值調優機會。在10%標註率下，他們採用配對TOST檢驗比較兩者，最小效應量為±1.0 g-measure。

實驗覆蓋五個安全數據集（包括惡意軟件檢測、釣魚網站識別等）。結果顯示，SemiScope全面超越所有默認SSL基線，在最強基線上提升0.7–12.7個g-measure點。而在等預算控制下，Tuned-Clf與完整管道在4個數據集上統計等價，僅Phishing數據集結果不具結論性。更具體地，僅分類器超參數優化就恢復了SemiScope相對於默認自訓練（ST）+隨機森林（RF）收益的中位數86%。

研究者指出，本文的可複用貢獻在於解耦協議。一個更簡單的方案即可達到相近效果：使用自訓練，結合貝葉斯優化調優分類器，並在驗證數據上調優決策閾值。該簡化方案在四個數據集上僅需20-30%標註率即可達到監督RF的g-measure水平（差值在1以內），在Drebin數據集上需40%標註率，且在所有數據集上標註率均不高於默認ST+RF。

該工作為安全領域的SSL實踐提供了重要啓示：在資源有限時，優先調優分類器而非複雜管道joint optimization或許更為高效。