AI News HubLIVE
站內改寫1 分鐘閱讀

SemiScope:解耦半監督安全分類中的分類器調優與聯合優化

該研究通過SemiScope框架解耦半監督學習(SSL)管道中的分類器調優與聯合優化效果,發現僅使用貝葉斯優化調優分類器即可恢復86%的性能提升,簡化策略與完整聯合優化效果相當。

來源arXiv Machine Learning作者: Rui Shu, Tianpei Xia, Jingzhu He

在安全分類任務中,標註數據稀缺問題普遍存在,半監督學習(SSL)通過從小標註池向大規模未標註池傳播標籤來緩解這一問題。然而,現有安全應用常將SSL當作黑盒使用,採用默認參數、固定分類器,且未處理偽標籤導致的類別不平衡。近年來,一些研究聲稱通過對SSL管道進行聯合搜索、AutoML或逐組件調優可獲得顯著收益,但這些收益的真實來源難以歸因:究竟是有益的SSL-分類器交互,還是僅僅來自下游分類器的調優?

為回答這一問題,Rui Shu 等研究者構建了SemiScope——一個分析工具而非部署推薦。SemiScope 使用貝葉斯優化聯合調優SSL設置、置信度過濾、過採樣和分類器。其核心對比實驗“Tuned-Clf”固定SSL為默認設置,但給予與SemiScope相同的100次分類器調優預算和驗證集閾值調優機會。在10%標註率下,他們採用配對TOST檢驗比較兩者,最小效應量為±1.0 g-measure。

實驗覆蓋五個安全數據集(包括惡意軟件檢測、釣魚網站識別等)。結果顯示,SemiScope全面超越所有默認SSL基線,在最強基線上提升0.7–12.7個g-measure點。而在等預算控制下,Tuned-Clf與完整管道在4個數據集上統計等價,僅Phishing數據集結果不具結論性。更具體地,僅分類器超參數優化就恢復了SemiScope相對於默認自訓練(ST)+隨機森林(RF)收益的中位數86%。

研究者指出,本文的可複用貢獻在於解耦協議。一個更簡單的方案即可達到相近效果:使用自訓練,結合貝葉斯優化調優分類器,並在驗證數據上調優決策閾值。該簡化方案在四個數據集上僅需20-30%標註率即可達到監督RF的g-measure水平(差值在1以內),在Drebin數據集上需40%標註率,且在所有數據集上標註率均不高於默認ST+RF。

該工作為安全領域的SSL實踐提供了重要啓示:在資源有限時,優先調優分類器而非複雜管道joint optimization或許更為高效。