人間は依然として長期的課題でAIに勝る
2022年の2週間のコーディングマラソンで、現在のAIエージェントは24時間以内に性能が頭打ちになる一方、トップ人間は2週間を通じて改善を続けた。繰り返しサンプリングのElo基準線を用いた分析により、エージェントの改善は主に単純なサンプリングに過ぎず、人間は超線形的な適応を示すことが明らかになった。
本稿では、AIエージェントの長期的課題におけるテスト時計算の拡張性を検討する。エージェントは試行錯誤とフィードバックにより改善できるが、その性能向上が本当に優れた戦略に起因するのか、それとも単なる反復サンプリングの効果なのかを問う。研究では、単純なモデルとして、各試行が独立したスコア分布からのサンプルである場合、成功率は試行回数の対数に対して線形に増加する(Eloスコアで表現)ことを示す。この基準線を用いれば、エージェントの戦略が反復サンプリングより優れているか否かを評価できる。
実証のために、2022年のAtCoder Heuristic Contest 014(RectJoin)を題材とした。人間参加者は2週間の間にコードを提出し続け、スコアを改善できる。実験では、AIエージェント(Claude Opus 4.6とGPT-5.5)を24時間連続稼働させ、各試行の最良スコアを記録した。結果は明白で、エージェントは最初の数時間で急速に向上するが、24時間後にはほぼ頭打ちとなる。一方、トップ人間は初期の向上は緩やかだが、2週間を通じて上昇を続け、最終的にエージェントを大きく上回った。
さらに、各システムのElo曲線を同一システム内の反復サンプリング基準線と比較したところ、エージェントの曲線は時間経過とともに基準線を下回る(次線形)のに対し、人間の曲線は基準線を上回る(超線形)ことが判明した。これは人間が単なるサンプリングではなく、長期的な適応戦略を用いていることを示す。結論として、現在のエージェントは短期的なスプリントが可能だが、人間のような長期的テスト時適応には程遠い。今後の課題として、より多くの開放的な長期タスク、長期軌跡の分析、およびエージェントの失敗要因の詳細な調査が挙げられる。
本研究は、テスト時計算の新しい視点を提供する。エージェントのテスト時戦略は本質的に内在的であるが、現在の改善は主に単純な反復サンプリングに依存しており、真の適応的学習には至っていない。人間の強みは、長期的なフィードバックと戦略調整を利用できる点にあり、これは将来のAIエージェント設計の重要な指針となる。