プレトレーニングデータフィルタリングによるオープンウェイトAIの安全性向上
EleutherAIは「Deep Ignorance」論文を発表。プレトレーニングデータからバイオリスケに関連する知識を除去することで、汎用性能を維持しつつ、ファインチューニング攻撃に耐性を持つモデルを実現。6.9Bパラメータモデルの実験では、フィルタリング後のモデルがWMDP-Bioベンチマークでランダムに近い性能を示し、大量のバイオリスケ論文で微調整してもベースラインを下回った。ただし、コンテキスト学習は妨げず、プロンプトから危険情報を取得可能なため、他の防御策と組み合わせる必要がある。
EleutherAI は本日、『Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs』と題する研究論文を発表し、プレトレーニングデータをフィルタリングすることでオープンウェイト言語モデルに改ざん耐性のある安全策を組み込む新しいアプローチを提案しました。従来のリフューザル訓練や入力フィルターに依存する事後的な手法とは異なり、この方法はモデルが最初から危険な知識を獲得するのを防ぎ、より堅牢な安全性を提供します。
研究チームはバイオリスケ知識の防止に焦点を当て、WMDP-Bio ベンチマークを使用して評価しました。WMDP-Bio は約1,200問の多肢選択問題から構成され、バイオリスケの前提知識を測定します。彼らは約6,000の用語からなるブロックリストと ModernBERT-Large ベースの分類器からなる、スケーラブルな多段階フィルタリングパイプラインを開発しました。このパイプラインは計算コストをほとんど増加させることなく4億以上の文書を処理でき、約10%のデータのみを拒否します(総FLOPS増加は1%未満)。同じモデルアーキテクチャと訓練構成で、チームは複数の6.9Bパラメータモデルをスクラッチから訓練し、データフィルタリングが性能に与える因果的影響を調査しました。
実験結果は、データフィルタリングが WMDP-Bio でのモデルのパフォーマンスをランダムに近いレベルまで低下させ、MMLU、PIQA などの一般的なベンチマークではほとんど低下せず、場合によってはわずかに向上することを示しました。例えば、最も効果的な設定(弱フィルター:プレトレーニングデータに単段階フィルター、アニーリングデータに多段階フィルター)では、WMDPスコアがランダムレベルに低下し、MMLUはわずかに減少しただけでした。より厳格な強フィルターはさらにWMDPを低下させたが、MMLUに小幅な悪影響を及ぼしました。これは、フィルタリングが汎用能力を犠牲にすることなく、標的を絞った介入であることを示しています。
さらに重要なことに、フィルタリングされたモデルはファインチューニング攻撃に対して顕著な耐性を示しました。研究チームは、WMDPのテスト問題の出典である専門家ラベル付きバイオリスケ論文300Mトークンを使用してフィルタリングモデルを微調整しました。その結果、全モデルのWMDP性能は向上したものの、フィルタリングモデルのスコアはベースラインモデルよりも明確に低いままでした。対照的に、回路ブレーキングなどの従来の手法を適用したモデルは、わずかな改ざんで性能がベースラインレベルに急上昇し、脆弱性を示しました。ウィキテキストを使用した良性の微調整でも、ベースラインの安全対策は機能しなくなりましたが、フィルタリングモデルは影響を受けませんでした。これは、低リソースの攻撃者に対するフィルタリングの有効性を示しています。
しかし、研究ではフィルタリングがコンテキスト内学習を妨げないことも明らかになりました。プロンプトに関連抄録が提供されると、フィルタリングモデルはベースラインモデルに近い性能を示しました。これは、フィルタリングを他の介入と組み合わせて多層防御戦略を構築する必要があることを意味します。ただし、この特性はクローズドなデプロイメントシナリオでは有用です。モデルプロバイダーは、信頼できるユーザーにのみ二重用途知識データベースへのアクセスを許可し、信頼できないユーザーには制限することで、安全性を確保しつつ善用を促進できます。
論文はまた、フィルタリングの限界(毒性コンテンツに対する効果がバイオリスケほど高くないなど)について議論し、フィルタリング範囲の拡大、より高度なフィルターの開発、改ざん耐性ベンチマークの確立などの将来の研究方向を示しています。EleutherAI はコミュニティに対して自分たちのモデルをストレステストするよう呼びかけ、より多くの学術機関や非営利団体がプレトレーニング研究に参加することを奨励しています。この研究は英国AI Security Instituteおよびオックスフォード大学との協力によるものであり、CoreWeave、Prime Intellectなどの機関から計算リソースの支援を受けました。