2026-07-02 12:00 UTC+8站内改写1 分钟阅读更新: 2026-07-02 16:01 UTC+8

SemiScope：解耦半监督安全分类中的分类器调优与联合优化

该研究通过SemiScope框架解耦半监督学习（SSL）管道中的分类器调优与联合优化效果，发现仅使用贝叶斯优化调优分类器即可恢复86%的性能提升，简化策略与完整联合优化效果相当。

来源arXiv Machine Learning作者: Rui Shu, Tianpei Xia, Jingzhu He

在安全分类任务中，标注数据稀缺问题普遍存在，半监督学习（SSL）通过从小标注池向大规模未标注池传播标签来缓解这一问题。然而，现有安全应用常将SSL当作黑盒使用，采用默认参数、固定分类器，且未处理伪标签导致的类别不平衡。近年来，一些研究声称通过对SSL管道进行联合搜索、AutoML或逐组件调优可获得显著收益，但这些收益的真实来源难以归因：究竟是有益的SSL-分类器交互，还是仅仅来自下游分类器的调优？

为回答这一问题，Rui Shu 等研究者构建了SemiScope——一个分析工具而非部署推荐。SemiScope 使用贝叶斯优化联合调优SSL设置、置信度过滤、过采样和分类器。其核心对比实验“Tuned-Clf”固定SSL为默认设置，但给予与SemiScope相同的100次分类器调优预算和验证集阈值调优机会。在10%标注率下，他们采用配对TOST检验比较两者，最小效应量为±1.0 g-measure。

实验覆盖五个安全数据集（包括恶意软件检测、钓鱼网站识别等）。结果显示，SemiScope全面超越所有默认SSL基线，在最强基线上提升0.7–12.7个g-measure点。而在等预算控制下，Tuned-Clf与完整管道在4个数据集上统计等价，仅Phishing数据集结果不具结论性。更具体地，仅分类器超参数优化就恢复了SemiScope相对于默认自训练（ST）+随机森林（RF）收益的中位数86%。

研究者指出，本文的可复用贡献在于解耦协议。一个更简单的方案即可达到相近效果：使用自训练，结合贝叶斯优化调优分类器，并在验证数据上调优决策阈值。该简化方案在四个数据集上仅需20-30%标注率即可达到监督RF的g-measure水平（差值在1以内），在Drebin数据集上需40%标注率，且在所有数据集上标注率均不高于默认ST+RF。

该工作为安全领域的SSL实践提供了重要启示：在资源有限时，优先调优分类器而非复杂管道joint optimization或许更为高效。