2026-06-12站内改写1 分鐘閱讀更新: 2026-06-12

ToolSense：一種用於審計大語言模型中參數化工具知識的診斷框架

研究人員發現，當前用於評估大語言模型工具檢索能力的基準測試存在高估問題。為此，他們提出了ToolSense，一個開源的自動診斷框架，可生成三種基準測試來更真實地評估模型對工具的理解。在ToolBench（約4.7萬個工具）上的實驗揭示了知識-檢索分離現象：一些模型在標準基準上表現良好，但在更現實的查詢中性能大幅下降，甚至低於嵌入基線。

來源arXiv AI作者: Ashutosh Hathidara, Sai Shruthi Sistla, Sebastian Schreiber, Sahil Bansal

大語言模型（LLM）被部署為智能代理時，常常需要從龐大的工具目錄中檢索合適的工具。傳統的基於嵌入的檢索方法依賴緊湊的編碼器，可能難以捕捉專業工具的語義信息。參數化工具檢索通過將每個工具編碼為虛擬令牌並添加到LLM詞彙表中，再經過兩階段微調（記憶化階段和檢索SFT階段），使LLM本身成為檢索器。這種方法在標準的ToolBench檢索基準上取得了強勁性能。然而，這些基準使用詳盡且完全指定的查詢，並使用約束解碼來限制輸出為有效令牌路徑，因此無法揭示模型是否真正理解其工具。

為了更真實地評估LLM的工具理解能力，來自SAP的研究人員提出了ToolSense，這是一個基於LLM的開源診斷框架。ToolSense可以接受任意工具目錄作為輸入，並自動生成三種基準測試：真實檢索基準（RRB），包含三個歧義層級的查詢；多項選擇探測基準（MCQ）；以及問答探測基準（QA）。研究團隊將ToolSense應用於擁有約4.7萬個工具的ToolBench，並評估了五種參數化模型訓練配置。結果揭示了知識-檢索分離現象：在RRB查詢上，幾種配置的性能相比完全指定的ToolBench基準下降了約50至64個百分點，甚至低於嵌入模型基線。此外，儘管某些模型在檢索方面表現強勁，但其事實性探測得分接近隨機水平，進一步證實了知識-檢索分離的存在。

這項研究指出了當前基準測試的侷限性，並提供了更嚴格的評估框架。ToolSense的開源發佈將幫助社區更準確地衡量LLM的工具理解能力，從而推動更可靠和實用的代理系統發展。研究人員已將ToolSense框架和ToolBench診斷基準開源在GitHub上，網址為https://github.com/sap/toolsense。