検証の地平:コーディングエージェント報酬に特効薬なし
解決策の検証は生成より容易だという古典的直感は、今日のコーディングエージェントでは逆転している。検証器は人間の意図の代理に過ぎず、意図の不完全な指定と最適化による乖離が課題である。本論文では検証信号の品質をスケーラビリティ、忠実性、ロバスト性の三次元で特徴づけ、4種類の報酬構成を研究。実験は、検証設計が報酬ハッキングを抑制しタスク品質を向上させることを示し、検証は生成器と共進化すべきだと結論づける。
古典的な直感では、解決策の検証は生成よりも容易とされてきた。しかし、基盤モデルの推論能力が強化され、エンジニアリングツールが高度化するにつれ、複雑な候補解の生成は容易になった一方で、それらを確実に検証することがより困難な問題となっている。論文「The Verification Horizon: No Silver Bullet for Coding Agent Rewards」は、あらゆる検証器は人間の意図の代理にすぎず、意図そのものではないと指摘する。これにより、検証は二重の困難に直面する。第一に、意図は本質的に不完全指定であり、その充足を忠実にチェックすることが難しい。第二に、モデル訓練中の最適化が代理と意図の乖離を拡大し、報酬ハッキングや信号飽和として現れる。
この問題に対処するため、研究チームは検証信号の品質をスケーラビリティ(拡張性)、忠実性(Faithfulness)、ロバスト性(頑健性)の三次元で特徴づけ、これら三つを同時に達成することが中心的課題であると論じる。さらに、一般的なコーディングタスク用のテスト検証器、フロントエンドタスク用のルーブリック検証器、実世界エージェントタスクでのユーザー検証器、長期間タスク用の自動エージェント検証器という4種類の報酬構成を研究した。
さまざまなタスクタイプと政策能力レベルにおいて、報酬設計の核心的課題と報酬信号の効果的活用方法について詳細な分析と実験を実施。実験結果は、ターゲットを絞った検証設計が報酬ハッキングを効果的に抑制し、タスク完了品質を向上させ、複数の内部ベンチマークおよび公開ベンチマークで顕著な改善をもたらすことを示している。例えば、汎用コーディングタスクではテスト検証器とカバレッジ分析の組み合わせにより偽陽性を削減し、フロントエンドタスクではルーブリック検証器が段階的評価により忠実性を高め、実世界タスクではユーザーフィードバックが報酬ハッキングを防ぎ、長期間タスクでは自動検証器が中間チェックポイントでロバスト性を向上させた。
これらの経験から得られた核心的観察は、政策能力が継続的に成長するにつれて固定報酬関数が有効であり続けることはなく、検証は生成器と共進化しなければならないという点である。この発見はAIセーフティとエージェントシステム設計に重要な示唆を与え、将来の報酬設計は動的に適応する必要があることを意味している。