2026-07-02 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-02 16:01 UTC+8

SemiScope：解耦半監督安全分類中的分類器調優與聯合最佳化

該研究透過SemiScope框架解耦半監督學習（SSL）管道中的分類器調優與聯合最佳化效果，發現僅使用貝葉斯最佳化調優分類器即可恢復86%的效能提升，簡化策略與完整聯合最佳化效果相當。

來源arXiv Machine Learning作者: Rui Shu, Tianpei Xia, Jingzhu He

在安全分類任務中，標註資料稀缺問題普遍存在，半監督學習（SSL）透過從小標註池向大規模未標註池傳播標籤來緩解這一問題。然而，現有安全應用常將SSL當作黑盒使用，採用預設引數、固定分類器，且未處理偽標籤導致的類別不平衡。近年來，一些研究聲稱透過對SSL管道進行聯合搜尋、AutoML或逐元件調優可獲得顯著收益，但這些收益的真實來源難以歸因：究竟是有益的SSL-分類器互動，還是僅僅來自下游分類器的調優？

為回答這一問題，Rui Shu 等研究者構建了SemiScope——一個分析工具而非部署推薦。SemiScope 使用貝葉斯最佳化聯合調優SSL設定、置信度過濾、過取樣和分類器。其核心對比實驗“Tuned-Clf”固定SSL為預設設定，但給予與SemiScope相同的100次分類器調優預算和驗證集閾值調優機會。在10%標註率下，他們採用配對TOST檢驗比較兩者，最小效應量為±1.0 g-measure。

實驗覆蓋五個安全資料集（包括惡意軟體檢測、釣魚網站識別等）。結果顯示，SemiScope全面超越所有預設SSL基線，在最強基線上提升0.7–12.7個g-measure點。而在等預算控制下，Tuned-Clf與完整管道在4個資料集上統計等價，僅Phishing資料集結果不具結論性。更具體地，僅分類器超引數最佳化就恢復了SemiScope相對於預設自訓練（ST）+隨機森林（RF）收益的中位數86%。

研究者指出，本文的可複用貢獻在於解耦協議。一個更簡單的方案即可達到相近效果：使用自訓練，結合貝葉斯最佳化調優分類器，並在驗證資料上調優決策閾值。該簡化方案在四個資料集上僅需20-30%標註率即可達到監督RF的g-measure水平（差值在1以內），在Drebin資料集上需40%標註率，且在所有資料集上標註率均不高於預設ST+RF。

該工作為安全領域的SSL實踐提供了重要啟示：在資源有限時，優先調優分類器而非複雜管道joint optimization或許更為高效。