リニアプローブは言語モデルの隠れ状態における推論モードではなくタスク形式を検出する
Qwen3-14Bの隠れ状態をプロービングした研究により、リニアプローブが推論タイプ(演繹、帰納、アブダクション)を100%の精度で分類できるように見えても、実際にはタスク形式の交絡因子(ソース、選択肢数、応答長)を検出していることが示された。交絡を除去すると精度は偶然レベルに低下し、因果操作実験でも機能的な関連は見られなかった。この発見は、メカニスティック・解釈可能性において日常的なタスク形式の交絡除去を促す。
arXivに発表された新しい研究により、大規模言語モデル(LLM)の隠れ状態に対するリニアプローブが検出する「推論モード」は、実際にはタスク形式の交絡シグナルに過ぎないことが明らかになった。Subramanyam Sahooらによるこの研究は、ACL 2026の第6回トラストワーシーNLPワークショップに採択されている。
研究者らはQwen3-14Bモデルを用い、古典的な推論の三分類をカバーする3つのベンチマーク(演繹:LogiQA 2.0、帰納:ARC-Challenge、アブダクション:αNLI)で実験を行った。40層中32層において、リニアプローブは交差検証で100%の精度を達成し、幾何学的にも明確に分離していた(内在次元:20.6、28.5、33.6;凸包汚染≤1.5%)。
しかし、さらに分析を進めると、この分離は完全にタスク形式の交絡因子によるものであることが判明した。ソースの同一性、選択肢数、応答長を制御すると、プローブの精度は偶然レベルまで低下した。トレースアンカー類似性分析では、タスク間の推論プロセスは大部分が共有されていることが示され(42.5%の一致率 vs. 33.3%の偶然期待値)、またランダム対照を用いた因果操作実験(n=20)では、幾何学的構造と推論モードの間に関連性は見られなかった(p=0.286)。
したがって、高いプローブ精度は計算構造ではなくタスク形式を反映している。この研究は、メカニスティック・解釈可能性の研究において、誤解を招く結論を避けるために、日常的にタスク形式の交絡除去を行うことの重要性を強調している。この発見は、解釈可能性分野全体に警鐘を鳴らすものであり、特定の推論モードを検出したと主張する多くのリニアプローブ研究が、実際にはタスク形式の表面的な特徴を捉えているに過ぎない可能性を示唆している。研究者らは、今後の研究では形式交絡の制御を組み込み、因果操作などより頑健な手法でプローブの発見を検証することを推奨している。