Hermes Agent 推出 MCP 工具搜尋功能:Anthropic 評估顯示 Opus 4 準確率提升49%至74%
Nous Research 的開源 Hermes Agent 新增了 Tool Search 功能,透過 BM25 漸進式模式披露,推遲載入 MCP 工具模式,減少令牌開銷並提高模型準確性。Anthropic 評估顯示,Claude Opus 4 準確率從49%提升至74%,Opus 4.5 從79.5%提升至88.1%。
文章情報
要點
- Tool Search 用三個橋接工具(tool_search、tool_describe、tool_call)替換所有 MCP 工具模式,按需載入。
- 使用 BM25 檢索,回退到子字串匹配,查詢工具名稱、描述和引數名。
- 自動模式僅在可推遲的模式超過上下文視窗的10%時啟用,最小化開銷。
- Anthropic 內部評估顯示準確率顯著提升,工具定義令牌使用量減少85%。
為什麼重要
這條新聞值得關注,因為Tool Search 用三個橋接工具(tool_search、tool_describe、tool_call)替換所有 MCP 工具模式,按需載入。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Hermes Agent 是 Nous Research 開發的開源 AI 代理框架,最近新增了 Tool Search 功能,旨在解決多 MCP 伺服器連線時上下文視窗被工具模式佔用的瓶頸問題。當 AI 代理連線多個模型上下文協議(MCP)伺服器時,每個工具的 JSON 模式都會在每個回合被髮送到模型,即使模型僅需一兩個工具。這導致巨大的令牌開銷:一個典型的五伺服器、34工具部署中,每回合提示大小約為 45,000 令牌,其中約 22,000 令牌(50%)是工具模式開銷。Anthropic 的工程資料顯示,工具定義在最佳化前可能消耗高達 134,000 令牌,每回合的“MCP 工具稅”在 15,000 到 60,000 令牌之間,導致成本增加和模型決策麻痺。
Tool Search 作為一種漸進式披露層,不是一次性載入所有工具模式,而是將 MCP 和非核心外掛工具替換為三個橋接工具:tool_search(搜尋延遲工具目錄)、tool_describe(載入單個工具的完整模式)和 tool_call(呼叫延遲工具)。模型首先使用 tool_search 查詢所需工具,然後透過 tool_describe 獲取其模式,最後用 tool_call 執行。所有鉤子、護欄和審批提示仍針對實際底層工具名執行,而不是橋接器。此設計顯著減少了上下文中的無關選項,從而提高了準確性。
Anthropic 的內部 MCP 評估顯示了令人印象深刻的準確性提升:Claude Opus 4 的準確率從 49% 提高到 74%,Claude Opus 4.5 從 79.5% 提高到 88.1%。同時,工具定義令牌使用量減少了 85%,而完整工具庫仍可訪問。這些改進歸因於消除“決策麻痺”,即模型在眾多無關選項中選擇困難。
在檢索方面,Hermes 使用 BM25 演算法將模型的查詢與工具名稱、描述和引數名稱目錄進行匹配。如果 BM25 未返回正面分數,系統會回退到工具名稱的精確子字串匹配,以應對諸如所有工具名都包含“github”等零逆文件頻率(IDF)的退化情況。目錄在每個回合從頭重建,以防止與即時工具登錄檔不同步的漂移錯誤。
Tool Search 預設處於自動模式,僅當延遲工具模式消耗活動模型上下文視窗的 10% 或以上時啟用,否則直接傳遞工具陣列,無額外開銷。此決策每回合重新評估,因此短上下文或少量工具時不會啟用。配置可透過 hermes.yaml 檔案控制,支援自動、始終開啟或停用,以及閾值百分比、搜尋預設限制和最大限制等引數。核心 Hermes 工具(如終端、檔案讀取、網路搜尋等)永遠不會被延遲。
總體而言,Tool Search 為處理大量 MCP 工具的 AI 代理提供了一種高效的解決方案,在降低成本的同時提高了準確性,適用於多伺服器、多工具但每回合使用有限工具的場景。