AI News HubLIVE
站内改写

異なるモデルでうまく動作するようにDeep Agentsをチューニング

Deep Agentsはこれまで、モデルファミリー間でうまく機能するように汎用的に設計されていました。本日、プロンプト、ツール、ミドルウェアを調整するモデル固有のプロファイルを追加します。OpenAI、Anthropic、Googleモデル向けのプロファイルを標準搭載しており、デフォルトのハーネスと比較してtau2-benchのサブセットで10〜20ポイントの向上が見られます。

記事インテリジェンス

エンジニア上級

要点

  • Deep Agentsはモデル固有のプロファイルを導入し、モデルごとにプロンプト、ツール、ミドルウェアを最適化します。
  • OpenAI、Anthropic、Googleモデル向けのカスタムプロファイルにより、tau2-benchで10〜20ポイントの向上。
  • プロファイルは宣言的なオーバーライドであり、プログラム的またはYAMLで登録可能。
  • 開発者はプロファイルをプラグインとして共有し、構成を簡単にバージョン管理できます。

重要な理由

このニュースが重要なのは、Deep Agentsはモデル固有のプロファイルを導入し、モデルごとにプロンプト、ツール、ミドルウェアを最適化しますためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Deep Agentsはこれまで、すべての大規模言語モデルでうまく機能することを目指し、単一のプロンプト、ツール、ミドルウェアセットを提供していました。開発者はモデルを交換したり、カスタムツールを追加したりできましたが、基本構成は固定されており、モデルごとに最適化されていませんでした。

本日、モデルごとにこれらのパラメータを制御するハーネスプロファイルを正式にリリースします。このアップデートの重要性は、モデルごとにプロンプトガイドが異なることにあります。例えば、OpenAIのCodexプロンプトガイドは特定のツール実装と命名(apply_patch、shell_commandなど)を規定し、AnthropicのClaudeプロンプトガイドは異なる慣習を強調します。同じモデルファミリー内でも、Opus 4.6から4.7への移行ガイドではプロンプトレベルの変更が示されています。

評価リーダーボードは、同じモデルでも異なるハーネスで大きく性能が異なることを示しています。Terminal-Bench 2.0はその好例で、Claude CodeハーネスはOpus 4.6の提出の中で最下位でした。以前の研究でも、ハーネスエンジニアリングの効果を示しました:gpt-5.2-codexをTerminal-Bench 2.0で52.8%から66.5%に向上させたのは、プロンプトやミドルウェアフックなどのハーネスレイヤーの変更によるものでした。

単一のハーネスですべてのモデルに最適化することは不可能なため、モデルごとにハーネスを変更できるようにしました。影響を測定するため、tau2-benchのサブセットでテストしました。結果は以下の通りです:GPT 5.3 Codexは33%から53%、Claude Opus 4.7は43%から53%に向上しました。

各モデルの変更はそれぞれのプロンプトガイドに基づいています。Codexの主な変更は、ツールの変更(デフォルトの実装をapply_patchに上書き、executeのエイリアスをshell_commandに)とプロンプトの変更(ツール呼び出し前にすべてのリソースを計画し、独立した操作を並列呼び出しにバッチ化する)です。Opusの場合、主な変更はプロンプトに集中しており、ツール結果の品質を反映し、記憶に頼らずにツールで状態を観察することを強調しています。

私たちの結論は、ハーネスをカスタマイズするためのインターフェースを公開することが、開発者が構成を管理、バージョン管理、テストするための有用なプリミティブであるということです。今すぐ使用するには、エージェント作成時にモデルを指定するだけで、ビルトインプロファイルが自動的に適用されます。プロファイルは宣言的なオーバーライドレイヤーであり、システムプロンプトの接頭辞/接尾辞、ツールの包含と命名、ミドルウェアの選択、サブエージェント構成、スキルをカバーします。OpenAI、Anthropic、Googleモデル向けのデフォルトを提供しており、開発者はそれらを上書きしたり、独自のプロファイルをプラグインとして配布したりできます。