フロンティアAIモデルのCoTなしタスク完了時間の推定
新しい研究では、フロンティアAIモデルが思考連鎖なしでどれだけ推論できるかを推定し、約373日で倍増し、2030年までに約25分の隠れた推論が可能になる可能性があるとしています。
Redwood Research、Astra Fellows Program、Aether Research、およびMATSが協力して行った新しい研究では、GPT-2(2019年)からGPT-5.5(2026年)までの14のフロンティアモデルについて、思考連鎖(Chain-of-Thought, CoT)なしでのタスク完了時間幅(Time Horizon, TH)を体系的に評価しました。その結果、CoTなしの時間幅は約373日で倍増(95%信頼区間:167~691日)、トークン幅は約437日で倍増(95%信頼区間:341~571日)することがわかりました。GPT-5.5は現在のフロンティアに位置し、50%のCoTなし時間幅は約3分、推論トークン幅は約1,500 o3-miniトークンです。
研究方法では、数学、コーディング、知識、エージェントツール使用、および安全性関連問題(ステガノグラフィーや陰謀推論など)をカバーする43のベンチマークでモデルを評価しました。すべてのテストにおいて、モデルが回答前に推論トークンを出力するのを防ぐために、ベンチマーク固有のプロンプトと構造化出力制約を使用しています。問題の難易度は、人間の解決時間(電卓、紙、鉛筆を使用し、LLMなしでの平均時間)と推論トークンアンカー(o3-miniが問題を解決するために必要な最小推論トークン数)の2つの独立した方法で推定されました。各モデルについて、成功率を対数人間解決時間または対数推論トークンアンカーに対してロジスティック曲線でフィッティングし、50%解決時間幅を特定しました。不確実性は10,000回のブートストラップリサンプリングで推定されています。
結果は、GPT-2とGPT-3を除外しても、ベンチマーク分布を変更しても、人間時間データのある問題のみに制限しても、単一モデルを削除しても、問題領域別に分割しても(領域別倍加時間は246~387日)、ほぼロバストでした。これは、Kwaらが報告したCoTありの時間幅(182日で倍増)とは対照的で、その倍加速度は本研究の約2倍です。この差は主に、GPT-4以降の能力向上の多くが外部化された推論(CoT)によるものであり、単一前方パス内の推論によるものではないことに起因します。
FAQセクションでは、いくつかの重要な点が明確にされています:この測定は純粋に推論を追跡しているわけではなく(事実想起問題も含む)、しかし主に推論を反映していること;現在のモデルが実際に推論を隠していると主張しているわけではなく、推論トークンを出力せずにどれだけの推論が可能かを測定していること;モデルは推論を無害に見える出力にエンコードすることで(ステガノグラフィー)この下限を超える可能性があること。したがって、CoTなしの時間幅はモデルの不透明な推論の下限を表しています。
研究の結論として、フロンティアモデルはCoTなしでも非自明な量の推論が可能であり、その量は指数関数的に増加しています。3分の人間相当推論は、指示に従うかどうか、シナリオが評価かどうかなど、一部の単回決定には十分かもしれませんが、複雑な長期権力追求推論(トレーニングゲームや他のインスタンスとの結託など)にはおそらく不十分です。この傾向が続けば、2030年までにモデルは約25分のCoTなし推論が可能になり、より高度な破壊的行動が可能になるでしょう。また、ニューラリースがなくても、CoTモニタリングの有効性は今後数年間で大幅に低下する可能性があります。論文著者は、AI企業に対し、CoTモニタリングや人間に明かさずにモデルがどれだけの推論を行えるかの下限を見つけるために、CoTなし時間幅を明示的に追跡するよう提案しています。