AI News HubLIVE
サイト内リライト2 分で読了

完全な検出、制御の失敗:言語モデルにおける知覚と操作の幾何学

arXivの最新研究は、言語モデルにおける「検出」と「制御」の行動方向の幾何学的な差異を明らかにしています。モデルは幻覚を完全に検出できますが(AUC=1.0)、検出方向と拒否を引き起こす方向のコサインはわずか0.12であり、検出は制御可能性を意味しないことを示しています。このギャップはさまざまなモデルと規模で普遍的に存在し、事前学習に起因しており、15度の回転で部分的に埋められます。

ソースarXiv Computational Linguistics著者: Cosimo Galeone, Anna Ettorre, Minsu Park, Giuseppe Ettorre, Daniele Ligorio

このたび、arXivに掲載された研究が、言語モデルの解釈可能性と制御可能性について深い幾何学的分析を行いました。論文「Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models」は、機械的解釈可能性の中心的な目標である制御可能性に疑問を投げかけています。もし行動がモデルの活性化の中でどこに表現されているかを知っていれば、それを修正できるはずだという前提がありますが、この前提には隠れた前提があります。すなわち、行動を検出する方向と制御する方向が同じか近いということです。

研究者たちは、最適な検出方向と最適な制御方向の間の角度を計算することで、この前提をテストしました。検出が制御を意味するならば、コサインは1に近いはずです。そうでなければ、コサインは検出と介入のギャップを定量化します。

Gemma 2-2B-itモデルでは、出力形式(クリーンなJSON vs マークダウンフェンシング)は両方の役割を1つの軸に統合します。しかし、幻覚はそうではありません。モデルはレイヤー5から完全な線形分離可能性(AUC = 1.000)で偽のエンティティを検出しますが、その方向は拒否を引き起こす方向とコサイン0.12(約83度)の関係にあります。これは小さく再現可能な整列ですが、「検出は制御である」という主張が求めるコサイン=1からはほど遠いものです。トークンを選択せずに活性化から構築された検出器も同様に整列しません(コサイン=-0.06)。

このギャップは一般化します。3つのファミリーと2つの規模(1B-9B)の4つのモデル全体で、コサインは[0.12, 0.20]の範囲にあり、命令チューニングの前後で同一です(0.1197 vs 0.1200)。その起源は事前学習にあります。拒否方向に向かって15度回転させると、部分的にギャップが埋まります。保持された2つの偽のエンティティカテゴリで73%と60%の拒否率を達成し、偽陽性率は1.8%です。

最後に、研究者たちはこのコサインがステアリング可能性を予測するかどうかを問いましたが、それはしません。検出は高次元のクラスであり、単一の方向ではありません。ステアリング可能なケースとそうでないケースを分けるものは機能的であり、静的な角度から読み取れるものではありません。コサインは、知覚とステアリングの解離の重み計算可能なシグネチャであり、その予測因子ではありません。

この研究は、モデルが何を「知っている」かを知るだけではその行動を制御するには不十分であることを示唆しており、モデルアライメントと解釈可能性に重要な示唆を与えています。