調優深度代理以適配不同模型
深度代理此前採用通用設計以適配各模型家族。今天,我們推出模型特定配置檔案,可調整提示、工具和中介軟體。我們內建了針對OpenAI、Anthropic和Google模型的配置檔案,在tau2-bench子集上相比預設配置實現了10-20分的提升。
文章情報
要點
- 深度代理引入模型特定配置檔案,針對不同模型最佳化提示、工具和中介軟體。
- 針對OpenAI、Anthropic和Google模型的定製配置檔案在tau2-bench上帶來10-20分的提升。
- 配置檔案可透過程式設計或YAML宣告式註冊,並可像外掛一樣分發。
- 開發者可以輕鬆地為不同模型管理和版本化配置。
為什麼重要
這條新聞值得關注,因為深度代理引入模型特定配置檔案,針對不同模型最佳化提示、工具和中介軟體。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
深度代理(Deep Agents)此前採用一套通用的提示、工具和中介軟體設計,旨在跨所有大型語言模型良好執行。開發者可以更換模型或新增自定義工具,但基礎配置是固定的,未針對特定模型進行最佳化。
今天,我們正式推出模型特定配置檔案(Harness Profiles),允許按模型控制這些引數。這一更新的重要性在於:不同模型的提示指南存在差異。例如,OpenAI的Codex提示指南規定了特定的工具實現和命名(如apply_patch、shell_command),而Anthropic的Claude提示指南則強調不同的約定。即使在同一個模型系列內,Opus 4.6到4.7的遷移指南也指出了提示層面的必要調整。
評估排行榜顯示,同一模型使用不同的配置框架可能產生截然不同的效能。Terminal-Bench 2.0是一個典型的例子:Claude Code配置框架在Opus 4.6提交中排名墊底。我們之前的工作也展示了配置工程的影響:僅透過應用提示和中介軟體鉤子等配置層更改,就將gpt-5.2-codex在Terminal-Bench 2.0上的表現從52.8%提升到66.5%。
單一配置無法對所有模型最優,因此我們支援按模型變化配置。為了衡量影響,我們在tau2-bench的子集上進行了測試,該子集包含尚未被前沿模型飽和的困難任務。結果如下:GPT 5.3 Codex從33%提升到53%,Claude Opus 4.7從43%提升到53%。
每個模型的更改基於其提示指南。對於Codex,主要更改包括工具更改(覆蓋預設實現為apply_patch,別名execute為shell_command)和提示更改(強調在呼叫工具前規劃所有資源,批次處理獨立操作)。對於Opus,主要更改集中在提示上,例如在收到工具結果後反思質量,優先使用工具觀察狀態而非依賴記憶。
我們的結論是:為配置提供可定製介面是開發者管理、版本化和測試不同配置的有用原語。要立即使用,只需在建立代理時指定模型,內建配置檔案會自動應用。配置檔案是宣告式覆蓋層,可覆蓋系統提示字首/字尾、工具包含和命名、中介軟體選擇、子代理配置和技能。我們為OpenAI、Anthropic和Google模型提供了預設配置,開發者可以覆蓋或分發自己的配置檔案。