追従行動の二立場評価:同意の構造と介入の限界
アクティベーション・ステアリングはLLMの行動を変えるが、標準的な評価では追従行動低減が事実に基づく同意も抑制するかどうかをテストしない。本論文では二立場評価を導入し、Llama-3-8B-Instructに重心差ステアリングを適用した。追従的同意と事実的同意は幾何学的に異なる部分空間にあるが、ステアリング方向は両方に等しく投影され、区別できないことがわかった。その結果、追従的発言だけでなく地球が丸いといった事実に基づく同意も減少する。このパターンは、活性化から読み取れる表現が書き込めるとは限らないという一般的なギャップを示している。
新しい研究論文は、アクティベーション・ステアリング技術が大きな言語モデル(LLM)の追従行動(ユーザーの視点に同意する傾向)を低減する際に、事実に基づく同意も誤って抑制するかどうかをテストするための二立場評価法を提案しています。この研究はMatthew James Buchanらによって行われ、TAIS 2026に採択され、全18ページ、9図を含むものです。
研究者らは、Llama-3-8B-Instructモデルに重心差ステアリングを適用しました。その結果、モデルは追従的同意と事実的同意を幾何学的に異なる部分空間に表現していることがわかりました。しかし、ステアリング方向は両方の部分空間に等しく投影されるため、追従行動だけを選択的にターゲットにすることはできません。その結果、ステアリングは追従的な発言だけでなく、「地球は丸い」といった事実に基づく同意も減少させます。
すべての他の静的な活性化特性はグループ間で一致しており、行動の乖離は生成ダイナミクスや残差ストリーム分析では解決できないより細かい構造に起因することが示唆されます。この発見は、活性化から読み取れる表現が必ずしも書き込めるわけではないという一般的な限界を明らかにしています。すなわち、モデルの活性化から追従と事実の同意に関する情報を読み取ることはできても、単純なステアリング操作でそれらを独立に介入することはできません。
この研究は、LLMの行動介入方法を評価する際に、より包括的なテストシナリオを考慮する必要性を強調しています。二立場評価は、モデルの内部表現と行動の関係をより正確に理解するための新しいパラダイムを提供します。また、将来の研究では、生成ダイナミクスに基づく介入など、より精密な手法の開発が必要であることを示唆しています。