Hermes Agent 推出 MCP 工具搜索功能:Anthropic 评估显示 Opus 4 准确率提升49%至74%
Nous Research 的开源 Hermes Agent 新增了 Tool Search 功能,通过 BM25 渐进式模式披露,推迟加载 MCP 工具模式,减少令牌开销并提高模型准确性。Anthropic 评估显示,Claude Opus 4 准确率从49%提升至74%,Opus 4.5 从79.5%提升至88.1%。
文章情报
要点
- Tool Search 用三个桥接工具(tool_search、tool_describe、tool_call)替换所有 MCP 工具模式,按需加载。
- 使用 BM25 检索,回退到子字符串匹配,查询工具名称、描述和参数名。
- 自动模式仅在可推迟的模式超过上下文窗口的10%时激活,最小化开销。
- Anthropic 内部评估显示准确率显著提升,工具定义令牌使用量减少85%。
为什么重要
这条新闻值得关注,因为Tool Search 用三个桥接工具(tool_search、tool_describe、tool_call)替换所有 MCP 工具模式,按需加载。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
Hermes Agent 是 Nous Research 开发的开源 AI 代理框架,最近新增了 Tool Search 功能,旨在解决多 MCP 服务器连接时上下文窗口被工具模式占用的瓶颈问题。当 AI 代理连接多个模型上下文协议(MCP)服务器时,每个工具的 JSON 模式都会在每个回合被发送到模型,即使模型仅需一两个工具。这导致巨大的令牌开销:一个典型的五服务器、34工具部署中,每回合提示大小约为 45,000 令牌,其中约 22,000 令牌(50%)是工具模式开销。Anthropic 的工程数据显示,工具定义在优化前可能消耗高达 134,000 令牌,每回合的“MCP 工具税”在 15,000 到 60,000 令牌之间,导致成本增加和模型决策麻痹。
Tool Search 作为一种渐进式披露层,不是一次性加载所有工具模式,而是将 MCP 和非核心插件工具替换为三个桥接工具:tool_search(搜索延迟工具目录)、tool_describe(加载单个工具的完整模式)和 tool_call(调用延迟工具)。模型首先使用 tool_search 查询所需工具,然后通过 tool_describe 获取其模式,最后用 tool_call 执行。所有钩子、护栏和审批提示仍针对实际底层工具名运行,而不是桥接器。此设计显著减少了上下文中的无关选项,从而提高了准确性。
Anthropic 的内部 MCP 评估显示了令人印象深刻的准确性提升:Claude Opus 4 的准确率从 49% 提高到 74%,Claude Opus 4.5 从 79.5% 提高到 88.1%。同时,工具定义令牌使用量减少了 85%,而完整工具库仍可访问。这些改进归因于消除“决策麻痹”,即模型在众多无关选项中选择困难。
在检索方面,Hermes 使用 BM25 算法将模型的查询与工具名称、描述和参数名称目录进行匹配。如果 BM25 未返回正面分数,系统会回退到工具名称的精确子字符串匹配,以应对诸如所有工具名都包含“github”等零逆文档频率(IDF)的退化情况。目录在每个回合从头重建,以防止与实时工具注册表不同步的漂移错误。
Tool Search 默认处于自动模式,仅当延迟工具模式消耗活动模型上下文窗口的 10% 或以上时激活,否则直接传递工具数组,无额外开销。此决策每回合重新评估,因此短上下文或少量工具时不会激活。配置可通过 hermes.yaml 文件控制,支持自动、始终开启或禁用,以及阈值百分比、搜索默认限制和最大限制等参数。核心 Hermes 工具(如终端、文件读取、网络搜索等)永远不会被延迟。
总体而言,Tool Search 为处理大量 MCP 工具的 AI 代理提供了一种高效的解决方案,在降低成本的同时提高了准确性,适用于多服务器、多工具但每回合使用有限工具的场景。