2026-06-04 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

エキスパート認識型拒否ステアリング

本研究は、拒否ステアリング手法を混合エキスパート（MoE）大規模言語モデルに拡張し、MoEの複雑なルーティングパターンがステアリング性能に影響を与えないことを示した。著者らは、拒否固有のエキスパートルーティングパターンとエキスパート固有のステアリング方向を利用して通常の拒否動作を抑制する2つのエキスパート認識型手法を提案した。結果は、単一エキスパートの出力に基づいて効果的なステアリングが可能であり、拒否信号はエキスパートルーティングとは異なり、注意機構が重要な役割を果たすことを示唆している。

ソースarXiv Computational Linguistics著者: Anna C. Marbut, Daniel R. Olson, Travis J. Wheeler

大規模言語モデル（LLM）の安全性アライメントは、有害または不適切な要求に対して確実に拒否応答を返す能力に依存しています。これまでの研究では、推論時にステアリングベクトルを適用することで、高密度（dense）LLMの拒否動作を抑制し、有害な要求に応答させることが可能であることが示されていました。

今回の研究では、この拒否ステアリング手法を混合エキスパート（MoE）アーキテクチャのモデルに拡張しました。MoEモデルは動的なルーティング機構を持ち、各トークンを異なるエキスパートに割り当てるため、従来のステアリング手法が複雑なルーティングパターンの影響を受ける可能性がありました。しかし、実験結果は、MoEモデルにおいても拒否ステアリングが有効であり、ルーティングの複雑さは性能に悪影響を及ぼさないことを示しました。研究チームは、Qwen2.5-MoEやDeepSeek-MoEを含む3つのオープンソースMoEモデルで検証し、一貫した結果を得ました。

さらに、著者らは2つのエキスパート認識型拒否ステアリング手法を提案しています。第一の手法は、拒否動作に関連する特定のエキスパートルーティングパターンを活用するものです。第二の手法は、エキスパートごとに異なるステアリング方向を計算し、より精密な制御を実現します。驚くべきことに、どちらの手法も単一のエキスパートの出力のみに基づいて効果的な拒否抑制を達成できることが分かりました。これは、拒否信号が一部のエキスパートに集中している可能性を示唆しています。

また、ステアリング手法で捕捉された拒否信号は、エキスパートのルーティング動作そのものとは異なることが明らかになりました。つまり、拒否時に活性化するエキスパートのセットと、ステアリングによって抽出された拒否表現は一致しません。この結果は、MoEモデルにおける拒否動作において、エキスパートルーティングよりもむしろ注意機構が重要な役割を果たしていることを示唆しています。

本論文は現在COLM 2026で審査中です。この研究は、拒否ステアリング技術の適用範囲を拡大するだけでなく、MoEモデルの安全性特性を理解するための新たな視点を提供します。将来、MoEアーキテクチャがさらに大規模なモデルに採用されるにつれて、これらの知見はモデルの制御可能性、安全性評価、および潜在的なリスク回避に大きな影響を与えるでしょう。同時に、このようなステアリング技術が安全アライメントを回避するために悪用される可能性があることも認識し、展開時には適切な対策を講じる必要があります。