SemiScope:半教師ありセキュリティ分類における分類器チューニングとジョイント最適化の分離
本研究は、セキュリティ分類のための半教師あり学習(SSL)パイプラインにおける分類器チューニングとジョイント最適化の効果を分離する。分類器のみをベイズ最適化でチューニングすることで、性能向上の86%を回復でき、簡略化されたレシピが完全なパイプラインと同等であることを示す。
セキュリティ分類タスクではラベル付きデータが不足していることが多く、半教師あり学習(SSL)は少数のラベル付きデータから大規模な未ラベルデータへラベルを伝播することでこの問題に対処する。しかし、既存のセキュリティアプリケーションではSSLをブラックボックスとして扱い、デフォルトパラメータ、固定分類器、疑似ラベルによるクラス不均衡への対応なしで使用することが多い。近年、SSLパイプラインのジョイントサーチ、AutoML、またはコンポーネント単位のチューニングによる最適化で大きな性能向上が報告されているが、その向上がSSLと分類器の有用な相互作用によるものなのか、単なる下流分類器のチューニングによるものなのかは不明である。
この疑問に答えるため、Rui ShuらはSemiScopeを構築した。これはデプロイ推奨ではなく分析ツールであり、ベイズ最適化を用いてSSL設定、信頼度フィルタリング、オーバーサンプリング、分類器をジョイントチューニングする。主要な対照実験「Tuned-Clf」はSSLをデフォルトに固定するが、SemiScopeと同じ100回の分類器チューニング予算と検証セットの閾値チューニングを与える。10%のラベル率で、ペアTOST検定を用いて比較し、最小効果量を±1.0 g-measureとする。
実験は5つのセキュリティデータセット(マルウェア検出、フィッシングサイト識別など)を対象とする。結果、SemiScopeは全てのデフォルトSSLベースラインを上回り、最強のベースラインに対して0.7〜12.7 g-measureポイントの改善を示した。一方、等予算の制御下では、Tuned-Clfは5つのデータセット中4つで完全なパイプラインと統計的に等価であり、Phishingデータセットのみ結論が出なかった。さらに、分類器のハイパーパラメータ最適化のみで、デフォルトの自己学習(ST)+ランダムフォレスト(RF)に対するSemiScopeの利得の中央値86%を回復した。
研究者らは、再利用可能な貢献は分解プロトコルにあると指摘する。より簡単なレシピで十分である:自己学習を使用し、ベイズ最適化で分類器をチューニングし、検証データで決定閾値をチューニングする。この簡略化レシピは、4つのデータセットで20〜30%のラベル率で教師ありRFのg-measureと1以内の差に達し、Drebinデータセットでは40%で達する。また、全てのデータセットでデフォルトST+RFと同等かそれ以下のラベル率で実現できる。
この研究は、セキュリティ分野のSSL実践に対し、リソースが限られている場合、複雑なパイプラインのジョイント最適化よりも分類器のチューニングを優先すべきであるという重要な示唆を与える。