読み出しのショートカット:位置による数字コピーが小規模言語モデルの算術CoT読み出しを支配する
研究により、小規模言語モデルは算術推論において、思考連鎖(CoT)プロンプトの論理的なステップに従うのではなく、回答区切りの前の最後の数字をコピーすることで答えを導き出していることが明らかになった。この位置的なショートカットがモデルの精度の大部分を占め、実際の推論よりも優先される。この発見はCoTに基づく監視手法に課題を投げかける。
記事インテリジェンス
要点
- 小規模LMは算術CoT読み出しにおいて、位置的な数字コピーショートカットに依存し、論理的推論を行わない。
- コピー機構はモデル精度の89-92%を占め、推論よりも優先される。
- Qwen、Llama、Gemmaでアーキテクチャ固有のバリエーションが見られるが、全体的な傾向は一貫している。
- この発見はCoTの忠実性評価と監視手法にリスクをもたらす。
重要な理由
このニュースが重要なのは、小規模LMは算術CoT読み出しにおいて、位置的な数字コピーショートカットに依存し、論理的推論を行わないためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
新たな研究により、小規模言語モデルにおける算術推論の驚くべき振る舞いが明らかになった。これらのモデルは、思考連鎖(Chain-of-Thought, CoT)プロンプトの論理的なステップに実際に従っているのではなく、回答区切りの前にある最後の数字を単純にコピーしているのだ。この論文「The Readout Shortcut: Positional Number Copying Dominates Arithmetic CoT Readout in Small Language Models」はarXiv(番号2605.22870)に掲載され、3種類の1-3Bパラメータの指示チューニング済み言語モデル(GSM8Kデータセット)を詳細に分析している。
研究者らは、プレフィックス補完実験を通じて回答読み出し段階を分離し、顕著な位置的なショートカットを特定した。すなわち、モデルは中間の推論ステップに関係なく、回答区切りの前の最後の位置にある数字をコピーする。さらに分析を進めると、正解の存在が54-92パーセントポイントの精度に寄与しており(各モデルの教師強制上限の89-92%に相当)、誤答の場合でも最終回答が最後のCoT数字と一致する確率は95-96%に達する。
さらに注目すべきは、コピーチャネルが保持されたコンテキスト推論よりも優先される点だ。最後の数字を誤った値に置き換えると、中間推論が正しくても精度はほぼゼロに低下する。一方、その数字を完全に削除すると、精度は5-32パーセントポイント回復する。モデルが本来実行できる1ステップの算術タスクでさえ、コピー可能な数字が存在するとその計算能力が抑制される。
モデルアーキテクチャごとに違いも見られる。QwenとLlamaは87-95%の確率で新たなディストラクタをコピーするのに対し、Gemmaは選択的なゲーティングを示す。ヘッドレベルのアブレーション実験では、この効果がアーキテクチャ固有のヘッドセットに関連していることが示唆され、GSM-Symbolicデータセットでも再現された。
非算術タスク(BBHなど)では、ステップシャッフル後の性能低下が顕著であり、7-8Bパラメータのモデルではコンテンツ選択的なゲーティングが出現する。この発見は、ステップレベルの忠実性評価が、位置的な回答転送と真の計算処理を混同する可能性があることを示しており、CoTベースの監視手法に潜在的なリスクをもたらす。