2026-05-19 00:10 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

調優深度代理以適配不同模型

深度代理此前採用通用設計以適配各模型家族。今天，我們推出模型特定配置檔案，可調整提示、工具和中介軟體。我們內建了針對OpenAI、Anthropic和Google模型的配置檔案，在tau2-bench子集上相比預設配置實現了10-20分的提升。

來源LangChain Blog

深度代理（Deep Agents）此前採用一套通用的提示、工具和中介軟體設計，旨在跨所有大型語言模型良好執行。開發者可以更換模型或新增自定義工具，但基礎配置是固定的，未針對特定模型進行最佳化。

今天，我們正式推出模型特定配置檔案（Harness Profiles），允許按模型控制這些引數。這一更新的重要性在於：不同模型的提示指南存在差異。例如，OpenAI的Codex提示指南規定了特定的工具實現和命名（如apply_patch、shell_command），而Anthropic的Claude提示指南則強調不同的約定。即使在同一個模型系列內，Opus 4.6到4.7的遷移指南也指出了提示層面的必要調整。

評估排行榜顯示，同一模型使用不同的配置框架可能產生截然不同的效能。Terminal-Bench 2.0是一個典型的例子：Claude Code配置框架在Opus 4.6提交中排名墊底。我們之前的工作也展示了配置工程的影響：僅透過應用提示和中介軟體鉤子等配置層更改，就將gpt-5.2-codex在Terminal-Bench 2.0上的表現從52.8%提升到66.5%。

單一配置無法對所有模型最優，因此我們支援按模型變化配置。為了衡量影響，我們在tau2-bench的子集上進行了測試，該子集包含尚未被前沿模型飽和的困難任務。結果如下：GPT 5.3 Codex從33%提升到53%，Claude Opus 4.7從43%提升到53%。

每個模型的更改基於其提示指南。對於Codex，主要更改包括工具更改（覆蓋預設實現為apply_patch，別名execute為shell_command）和提示更改（強調在呼叫工具前規劃所有資源，批次處理獨立操作）。對於Opus，主要更改集中在提示上，例如在收到工具結果後反思質量，優先使用工具觀察狀態而非依賴記憶。

我們的結論是：為配置提供可定製介面是開發者管理、版本化和測試不同配置的有用原語。要立即使用，只需在建立代理時指定模型，內建配置檔案會自動應用。配置檔案是宣告式覆蓋層，可覆蓋系統提示字首/字尾、工具包含和命名、中介軟體選擇、子代理配置和技能。我們為OpenAI、Anthropic和Google模型提供了預設配置，開發者可以覆蓋或分發自己的配置檔案。