AI News HubLIVE
站內改寫1 分鐘閱讀

SemiScope:解耦半監督安全分類中的分類器調優與聯合最佳化

該研究透過SemiScope框架解耦半監督學習(SSL)管道中的分類器調優與聯合最佳化效果,發現僅使用貝葉斯最佳化調優分類器即可恢復86%的效能提升,簡化策略與完整聯合最佳化效果相當。

來源arXiv Machine Learning作者: Rui Shu, Tianpei Xia, Jingzhu He

在安全分類任務中,標註資料稀缺問題普遍存在,半監督學習(SSL)透過從小標註池向大規模未標註池傳播標籤來緩解這一問題。然而,現有安全應用常將SSL當作黑盒使用,採用預設引數、固定分類器,且未處理偽標籤導致的類別不平衡。近年來,一些研究聲稱透過對SSL管道進行聯合搜尋、AutoML或逐元件調優可獲得顯著收益,但這些收益的真實來源難以歸因:究竟是有益的SSL-分類器互動,還是僅僅來自下游分類器的調優?

為回答這一問題,Rui Shu 等研究者構建了SemiScope——一個分析工具而非部署推薦。SemiScope 使用貝葉斯最佳化聯合調優SSL設定、置信度過濾、過取樣和分類器。其核心對比實驗“Tuned-Clf”固定SSL為預設設定,但給予與SemiScope相同的100次分類器調優預算和驗證集閾值調優機會。在10%標註率下,他們採用配對TOST檢驗比較兩者,最小效應量為±1.0 g-measure。

實驗覆蓋五個安全資料集(包括惡意軟體檢測、釣魚網站識別等)。結果顯示,SemiScope全面超越所有預設SSL基線,在最強基線上提升0.7–12.7個g-measure點。而在等預算控制下,Tuned-Clf與完整管道在4個資料集上統計等價,僅Phishing資料集結果不具結論性。更具體地,僅分類器超引數最佳化就恢復了SemiScope相對於預設自訓練(ST)+隨機森林(RF)收益的中位數86%。

研究者指出,本文的可複用貢獻在於解耦協議。一個更簡單的方案即可達到相近效果:使用自訓練,結合貝葉斯最佳化調優分類器,並在驗證資料上調優決策閾值。該簡化方案在四個資料集上僅需20-30%標註率即可達到監督RF的g-measure水平(差值在1以內),在Drebin資料集上需40%標註率,且在所有資料集上標註率均不高於預設ST+RF。

該工作為安全領域的SSL實踐提供了重要啟示:在資源有限時,優先調優分類器而非複雜管道joint optimization或許更為高效。

SemiScope:解耦半監督安全分類中的分類器調優與聯合最佳化 | AI News Hub