调优深度代理以适配不同模型
深度代理此前采用通用设计以适配各模型家族。今天,我们推出模型特定配置文件,可调整提示、工具和中间件。我们内置了针对OpenAI、Anthropic和Google模型的配置文件,在tau2-bench子集上相比默认配置实现了10-20分的提升。
文章情报
要点
- 深度代理引入模型特定配置文件,针对不同模型优化提示、工具和中间件。
- 针对OpenAI、Anthropic和Google模型的定制配置文件在tau2-bench上带来10-20分的提升。
- 配置文件可通过编程或YAML声明式注册,并可像插件一样分发。
- 开发者可以轻松地为不同模型管理和版本化配置。
为什么重要
这条新闻值得关注,因为深度代理引入模型特定配置文件,针对不同模型优化提示、工具和中间件。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
深度代理(Deep Agents)此前采用一套通用的提示、工具和中间件设计,旨在跨所有大型语言模型良好运行。开发者可以更换模型或添加自定义工具,但基础配置是固定的,未针对特定模型进行优化。
今天,我们正式推出模型特定配置文件(Harness Profiles),允许按模型控制这些参数。这一更新的重要性在于:不同模型的提示指南存在差异。例如,OpenAI的Codex提示指南规定了特定的工具实现和命名(如apply_patch、shell_command),而Anthropic的Claude提示指南则强调不同的约定。即使在同一个模型系列内,Opus 4.6到4.7的迁移指南也指出了提示层面的必要调整。
评估排行榜显示,同一模型使用不同的配置框架可能产生截然不同的性能。Terminal-Bench 2.0是一个典型的例子:Claude Code配置框架在Opus 4.6提交中排名垫底。我们之前的工作也展示了配置工程的影响:仅通过应用提示和中间件钩子等配置层更改,就将gpt-5.2-codex在Terminal-Bench 2.0上的表现从52.8%提升到66.5%。
单一配置无法对所有模型最优,因此我们支持按模型变化配置。为了衡量影响,我们在tau2-bench的子集上进行了测试,该子集包含尚未被前沿模型饱和的困难任务。结果如下:GPT 5.3 Codex从33%提升到53%,Claude Opus 4.7从43%提升到53%。
每个模型的更改基于其提示指南。对于Codex,主要更改包括工具更改(覆盖默认实现为apply_patch,别名execute为shell_command)和提示更改(强调在调用工具前规划所有资源,批量处理独立操作)。对于Opus,主要更改集中在提示上,例如在收到工具结果后反思质量,优先使用工具观察状态而非依赖记忆。
我们的结论是:为配置提供可定制接口是开发者管理、版本化和测试不同配置的有用原语。要立即使用,只需在创建代理时指定模型,内置配置文件会自动应用。配置文件是声明式覆盖层,可覆盖系统提示前缀/后缀、工具包含和命名、中间件选择、子代理配置和技能。我们为OpenAI、Anthropic和Google模型提供了默认配置,开发者可以覆盖或分发自己的配置文件。