SemiScope:解耦半监督安全分类中的分类器调优与联合优化
该研究通过SemiScope框架解耦半监督学习(SSL)管道中的分类器调优与联合优化效果,发现仅使用贝叶斯优化调优分类器即可恢复86%的性能提升,简化策略与完整联合优化效果相当。
在安全分类任务中,标注数据稀缺问题普遍存在,半监督学习(SSL)通过从小标注池向大规模未标注池传播标签来缓解这一问题。然而,现有安全应用常将SSL当作黑盒使用,采用默认参数、固定分类器,且未处理伪标签导致的类别不平衡。近年来,一些研究声称通过对SSL管道进行联合搜索、AutoML或逐组件调优可获得显著收益,但这些收益的真实来源难以归因:究竟是有益的SSL-分类器交互,还是仅仅来自下游分类器的调优?
为回答这一问题,Rui Shu 等研究者构建了SemiScope——一个分析工具而非部署推荐。SemiScope 使用贝叶斯优化联合调优SSL设置、置信度过滤、过采样和分类器。其核心对比实验“Tuned-Clf”固定SSL为默认设置,但给予与SemiScope相同的100次分类器调优预算和验证集阈值调优机会。在10%标注率下,他们采用配对TOST检验比较两者,最小效应量为±1.0 g-measure。
实验覆盖五个安全数据集(包括恶意软件检测、钓鱼网站识别等)。结果显示,SemiScope全面超越所有默认SSL基线,在最强基线上提升0.7–12.7个g-measure点。而在等预算控制下,Tuned-Clf与完整管道在4个数据集上统计等价,仅Phishing数据集结果不具结论性。更具体地,仅分类器超参数优化就恢复了SemiScope相对于默认自训练(ST)+随机森林(RF)收益的中位数86%。
研究者指出,本文的可复用贡献在于解耦协议。一个更简单的方案即可达到相近效果:使用自训练,结合贝叶斯优化调优分类器,并在验证数据上调优决策阈值。该简化方案在四个数据集上仅需20-30%标注率即可达到监督RF的g-measure水平(差值在1以内),在Drebin数据集上需40%标注率,且在所有数据集上标注率均不高于默认ST+RF。
该工作为安全领域的SSL实践提供了重要启示:在资源有限时,优先调优分类器而非复杂管道joint optimization或许更为高效。