2026-05-18 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

公正な出力、偏った内部：高リスク決定におけるLLMの潜在的バイアスの因果力と非対称性

指示調整言語モデルは高リスク決定において行動的に公正であるが、内部表現にバイアスを保持している。住宅ローン引受の事例を通じて、モデルは出力レベルではバイアスを示さないが、層を超えて人口統計的表現を保持・増幅する。活性化ステアリングと層間介入により、抑制された情報が重要な層で再注入されると、ほぼ完全な決定の逆転を引き起こすことが示された。この潜在的バイアスは非対称であり、敵対的プロンプトや微調整に対して脆弱である。出力のみの行動監査は不十分であり、高リスクAIガバナンスには出力評価と表現分析を組み合わせた二層テストフレームワークが必要。

ソースarXiv AI著者: Jagdish Tripathy, Marcus Buckmann

新しい研究により、指示調整された言語モデルが高リスクの意思決定において、出力は公平に見える一方で、内部表現に深刻なバイアスを潜めていることが明らかになった。本研究は、住宅ローンの引受審査を例に、人種に関連する名前のみが異なるマッチングされた申請を用いて実験を行った。その結果、モデルの出力レベルでは差別的な行動は見られなかったが、モデルの各層における内部表現を分析すると、人口統計学的な特徴が保持・増幅されていることがわかった。

研究者らは活性化ステアリングと新しい層間介入手法を用いて、抑制された内部表現が因果的な影響力を持つかどうかを体系的に調査した。具体的には、重要な層に抑制情報を再注入すると、モデルの判断がほぼ完全に逆転することを実証した。つまり、本来承認されるべき申請が却下されたり、その逆が起こったりする。これは、表面的には公平に見えるモデルでも、内部に潜在するバイアスが因果的な力を持ち、条件次第で結果を変えうることを示している。

さらに重要なのは、この潜在的なバイアスが非対称であることである。一方の方向へのステアリングは大きな影響を与えるが、逆方向への介入はほとんど効果がない。また、このバイアスは敵対的プロンプトやパラメータ効率的な微調整によって容易に悪用される可能性があり、悪意ある行為者が隠れたバイアスを利用してモデル出力を操作できることを示唆している。研究者らは、出力のみに注目した行動監査だけでは不十分であり、高リスクAIガバナンスには出力評価と内部表現分析を組み合わせた二層テストフレームワークが必要だと結論づけている。この研究は、AIガバナンスに重要な実証的根拠と新しい方法論の方向性を提供している。