2026-05-19 00:10 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

调优深度代理以适配不同模型

深度代理此前采用通用设计以适配各模型家族。今天，我们推出模型特定配置文件，可调整提示、工具和中间件。我们内置了针对OpenAI、Anthropic和Google模型的配置文件，在tau2-bench子集上相比默认配置实现了10-20分的提升。

来源LangChain Blog

深度代理（Deep Agents）此前采用一套通用的提示、工具和中间件设计，旨在跨所有大型语言模型良好运行。开发者可以更换模型或添加自定义工具，但基础配置是固定的，未针对特定模型进行优化。

今天，我们正式推出模型特定配置文件（Harness Profiles），允许按模型控制这些参数。这一更新的重要性在于：不同模型的提示指南存在差异。例如，OpenAI的Codex提示指南规定了特定的工具实现和命名（如apply_patch、shell_command），而Anthropic的Claude提示指南则强调不同的约定。即使在同一个模型系列内，Opus 4.6到4.7的迁移指南也指出了提示层面的必要调整。

评估排行榜显示，同一模型使用不同的配置框架可能产生截然不同的性能。Terminal-Bench 2.0是一个典型的例子：Claude Code配置框架在Opus 4.6提交中排名垫底。我们之前的工作也展示了配置工程的影响：仅通过应用提示和中间件钩子等配置层更改，就将gpt-5.2-codex在Terminal-Bench 2.0上的表现从52.8%提升到66.5%。

单一配置无法对所有模型最优，因此我们支持按模型变化配置。为了衡量影响，我们在tau2-bench的子集上进行了测试，该子集包含尚未被前沿模型饱和的困难任务。结果如下：GPT 5.3 Codex从33%提升到53%，Claude Opus 4.7从43%提升到53%。

每个模型的更改基于其提示指南。对于Codex，主要更改包括工具更改（覆盖默认实现为apply_patch，别名execute为shell_command）和提示更改（强调在调用工具前规划所有资源，批量处理独立操作）。对于Opus，主要更改集中在提示上，例如在收到工具结果后反思质量，优先使用工具观察状态而非依赖记忆。

我们的结论是：为配置提供可定制接口是开发者管理、版本化和测试不同配置的有用原语。要立即使用，只需在创建代理时指定模型，内置配置文件会自动应用。配置文件是声明式覆盖层，可覆盖系统提示前缀/后缀、工具包含和命名、中间件选择、子代理配置和技能。我们为OpenAI、Anthropic和Google模型提供了默认配置，开发者可以覆盖或分发自己的配置文件。