答えを超えた思考:大規模推論モデルにおける有害な過剰思考の評価
大規模推論モデルは推論ステップを増やすことで性能を向上させるが、正解に達した後の推論が有害である可能性を示す研究。接頭辞レベルの軌跡評価により、正しい接頭辞で停止すると精度が最大21%向上する一方、一般的な早期停止戦略は有害な過剰思考を軽減できないことを発見。論理的ドリフトと視覚的再解釈が主な原因。
大規模推論モデル(LRM)は、テスト時計算を増やすことで明示的な中間推論トレースを生成し、性能を向上させている。しかし、より長い推論が常に有益であるという前提は十分に検証されていなかった。本研究では、「モデルが正解に達した後、さらなる推論は解を洗練するのか、それとも逸脱させるのか?」という問いに答えるため、推論十分性に基づく接頭辞レベルの軌跡評価プロトコルを導入した。このプロトコルは、モデルが初めて正解を生成するために必要な最小推論予算を定義し、冗長だが無害な過剰思考(verbose overthinking)と、すでに正しい軌跡を不安定化させる有害な過剰思考(harmful overthinking)を区別する。
マルチモーダルベンチマークでの実験では、多くの推論集約型とされるインスタンスが驚くほど少ない推論しか必要としないことが判明した。さらに、最初の正しい接頭辞で停止することで、標準的な推論と比較して最大21%の精度向上が見られた。これは、現在のモデルが推論能力だけでなく、適切なタイミングで停止する能力にも限界があることを示している。一般的な効率戦略である早期停止は冗長な過剰思考を大幅に削減する(最大50%)が、有害な過剰思考を緩和できない。障害分析により、正しさの逸脱は主に論理的ドリフトと視覚的再解釈によって引き起こされることが明らかになった。
この結果は、言語のみの推論ベンチマークにも一般化され、有害な過剰思考がより広範な信頼性リスクであることを浮き彫りにしている。本研究は「より多くの推論が常に良い」という仮定に挑戦し、より信頼性の高い推論システムを構築するための新たな方向性を示している。コードは公開されている。