Hermes Agent 推出 MCP 工具搜索功能:Anthropic 評估顯示 Opus 4 準確率提升49%至74%
Nous Research 的開源 Hermes Agent 新增了 Tool Search 功能,通過 BM25 漸進式模式披露,推遲加載 MCP 工具模式,減少令牌開銷並提高模型準確性。Anthropic 評估顯示,Claude Opus 4 準確率從49%提升至74%,Opus 4.5 從79.5%提升至88.1%。
文章情報
要點
- Tool Search 用三個橋接工具(tool_search、tool_describe、tool_call)替換所有 MCP 工具模式,按需加載。
- 使用 BM25 檢索,回退到子字符串匹配,查詢工具名稱、描述和參數名。
- 自動模式僅在可推遲的模式超過上下文窗口的10%時激活,最小化開銷。
- Anthropic 內部評估顯示準確率顯著提升,工具定義令牌使用量減少85%。
為甚麼重要
這條新聞值得關注,因為Tool Search 用三個橋接工具(tool_search、tool_describe、tool_call)替換所有 MCP 工具模式,按需加載。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Hermes Agent 是 Nous Research 開發的開源 AI 代理框架,最近新增了 Tool Search 功能,旨在解決多 MCP 服務器連接時上下文窗口被工具模式佔用的瓶頸問題。當 AI 代理連接多個模型上下文協議(MCP)服務器時,每個工具的 JSON 模式都會在每個回合被髮送到模型,即使模型僅需一兩個工具。這導致巨大的令牌開銷:一個典型的五服務器、34工具部署中,每回合提示大小約為 45,000 令牌,其中約 22,000 令牌(50%)是工具模式開銷。Anthropic 的工程數據顯示,工具定義在優化前可能消耗高達 134,000 令牌,每回合的“MCP 工具税”在 15,000 到 60,000 令牌之間,導致成本增加和模型決策麻痹。
Tool Search 作為一種漸進式披露層,不是一次性加載所有工具模式,而是將 MCP 和非核心插件工具替換為三個橋接工具:tool_search(搜索延遲工具目錄)、tool_describe(加載單個工具的完整模式)和 tool_call(調用延遲工具)。模型首先使用 tool_search 查詢所需工具,然後通過 tool_describe 獲取其模式,最後用 tool_call 執行。所有鈎子、護欄和審批提示仍針對實際底層工具名運行,而不是橋接器。此設計顯著減少了上下文中的無關選項,從而提高了準確性。
Anthropic 的內部 MCP 評估顯示了令人印象深刻的準確性提升:Claude Opus 4 的準確率從 49% 提高到 74%,Claude Opus 4.5 從 79.5% 提高到 88.1%。同時,工具定義令牌使用量減少了 85%,而完整工具庫仍可訪問。這些改進歸因於消除“決策麻痹”,即模型在眾多無關選項中選擇困難。
在檢索方面,Hermes 使用 BM25 算法將模型的查詢與工具名稱、描述和參數名稱目錄進行匹配。如果 BM25 未返回正面分數,系統會回退到工具名稱的精確子字符串匹配,以應對諸如所有工具名都包含“github”等零逆文檔頻率(IDF)的退化情況。目錄在每個回合從頭重建,以防止與實時工具註冊表不同步的漂移錯誤。
Tool Search 默認處於自動模式,僅當延遲工具模式消耗活動模型上下文窗口的 10% 或以上時激活,否則直接傳遞工具數組,無額外開銷。此決策每回合重新評估,因此短上下文或少量工具時不會激活。配置可通過 hermes.yaml 文件控制,支持自動、始終開啓或禁用,以及閾值百分比、搜索默認限制和最大限制等參數。核心 Hermes 工具(如終端、文件讀取、網絡搜索等)永遠不會被延遲。
總體而言,Tool Search 為處理大量 MCP 工具的 AI 代理提供了一種高效的解決方案,在降低成本的同時提高了準確性,適用於多服務器、多工具但每回合使用有限工具的場景。