AI News HubLIVE
站内改写

調優深度代理以適配不同模型

深度代理此前採用通用設計以適配各模型家族。今天,我們推出模型特定配置文件,可調整提示、工具和中間件。我們內置了針對OpenAI、Anthropic和Google模型的配置文件,在tau2-bench子集上相比默認配置實現了10-20分的提升。

文章情報

工程師進階

要點

  • 深度代理引入模型特定配置文件,針對不同模型優化提示、工具和中間件。
  • 針對OpenAI、Anthropic和Google模型的定製配置文件在tau2-bench上帶來10-20分的提升。
  • 配置文件可通過編程或YAML聲明式註冊,並可像插件一樣分發。
  • 開發者可以輕鬆地為不同模型管理和版本化配置。

為甚麼重要

這條新聞值得關注,因為深度代理引入模型特定配置文件,針對不同模型優化提示、工具和中間件。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

深度代理(Deep Agents)此前採用一套通用的提示、工具和中間件設計,旨在跨所有大型語言模型良好運行。開發者可以更換模型或添加自定義工具,但基礎配置是固定的,未針對特定模型進行優化。

今天,我們正式推出模型特定配置文件(Harness Profiles),允許按模型控制這些參數。這一更新的重要性在於:不同模型的提示指南存在差異。例如,OpenAI的Codex提示指南規定了特定的工具實現和命名(如apply_patch、shell_command),而Anthropic的Claude提示指南則強調不同的約定。即使在同一個模型系列內,Opus 4.6到4.7的遷移指南也指出了提示層面的必要調整。

評估排行榜顯示,同一模型使用不同的配置框架可能產生截然不同的性能。Terminal-Bench 2.0是一個典型的例子:Claude Code配置框架在Opus 4.6提交中排名墊底。我們之前的工作也展示了配置工程的影響:僅通過應用提示和中間件鈎子等配置層更改,就將gpt-5.2-codex在Terminal-Bench 2.0上的表現從52.8%提升到66.5%。

單一配置無法對所有模型最優,因此我們支持按模型變化配置。為了衡量影響,我們在tau2-bench的子集上進行了測試,該子集包含尚未被前沿模型飽和的困難任務。結果如下:GPT 5.3 Codex從33%提升到53%,Claude Opus 4.7從43%提升到53%。

每個模型的更改基於其提示指南。對於Codex,主要更改包括工具更改(覆蓋默認實現為apply_patch,別名execute為shell_command)和提示更改(強調在調用工具前規劃所有資源,批量處理獨立操作)。對於Opus,主要更改集中在提示上,例如在收到工具結果後反思質量,優先使用工具觀察狀態而非依賴記憶。

我們的結論是:為配置提供可定製接口是開發者管理、版本化和測試不同配置的有用原語。要立即使用,只需在創建代理時指定模型,內置配置文件會自動應用。配置文件是聲明式覆蓋層,可覆蓋系統提示前綴/後綴、工具包含和命名、中間件選擇、子代理配置和技能。我們為OpenAI、Anthropic和Google模型提供了默認配置,開發者可以覆蓋或分發自己的配置文件。