2026-05-30 11:11 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Hermes Agent 推出 MCP 工具搜索功能：Anthropic 评估显示 Opus 4 准确率提升49%至74%

Nous Research 的开源 Hermes Agent 新增了 Tool Search 功能，通过 BM25 渐进式模式披露，推迟加载 MCP 工具模式，减少令牌开销并提高模型准确性。Anthropic 评估显示，Claude Opus 4 准确率从49%提升至74%，Opus 4.5 从79.5%提升至88.1%。

来源MarkTechPost作者: Asif Razzaq

Hermes Agent 是 Nous Research 开发的开源 AI 代理框架，最近新增了 Tool Search 功能，旨在解决多 MCP 服务器连接时上下文窗口被工具模式占用的瓶颈问题。当 AI 代理连接多个模型上下文协议（MCP）服务器时，每个工具的 JSON 模式都会在每个回合被发送到模型，即使模型仅需一两个工具。这导致巨大的令牌开销：一个典型的五服务器、34工具部署中，每回合提示大小约为 45,000 令牌，其中约 22,000 令牌（50%）是工具模式开销。Anthropic 的工程数据显示，工具定义在优化前可能消耗高达 134,000 令牌，每回合的“MCP 工具税”在 15,000 到 60,000 令牌之间，导致成本增加和模型决策麻痹。

Tool Search 作为一种渐进式披露层，不是一次性加载所有工具模式，而是将 MCP 和非核心插件工具替换为三个桥接工具：tool_search（搜索延迟工具目录）、tool_describe（加载单个工具的完整模式）和 tool_call（调用延迟工具）。模型首先使用 tool_search 查询所需工具，然后通过 tool_describe 获取其模式，最后用 tool_call 执行。所有钩子、护栏和审批提示仍针对实际底层工具名运行，而不是桥接器。此设计显著减少了上下文中的无关选项，从而提高了准确性。

Anthropic 的内部 MCP 评估显示了令人印象深刻的准确性提升：Claude Opus 4 的准确率从 49% 提高到 74%，Claude Opus 4.5 从 79.5% 提高到 88.1%。同时，工具定义令牌使用量减少了 85%，而完整工具库仍可访问。这些改进归因于消除“决策麻痹”，即模型在众多无关选项中选择困难。

在检索方面，Hermes 使用 BM25 算法将模型的查询与工具名称、描述和参数名称目录进行匹配。如果 BM25 未返回正面分数，系统会回退到工具名称的精确子字符串匹配，以应对诸如所有工具名都包含“github”等零逆文档频率（IDF）的退化情况。目录在每个回合从头重建，以防止与实时工具注册表不同步的漂移错误。

Tool Search 默认处于自动模式，仅当延迟工具模式消耗活动模型上下文窗口的 10% 或以上时激活，否则直接传递工具数组，无额外开销。此决策每回合重新评估，因此短上下文或少量工具时不会激活。配置可通过 hermes.yaml 文件控制，支持自动、始终开启或禁用，以及阈值百分比、搜索默认限制和最大限制等参数。核心 Hermes 工具（如终端、文件读取、网络搜索等）永远不会被延迟。

总体而言，Tool Search 为处理大量 MCP 工具的 AI 代理提供了一种高效的解决方案，在降低成本的同时提高了准确性，适用于多服务器、多工具但每回合使用有限工具的场景。