AI News HubLIVE
站内改写1 分鐘閱讀

ToolSense:一種用於審計大語言模型中參數化工具知識的診斷框架

研究人員發現,當前用於評估大語言模型工具檢索能力的基準測試存在高估問題。為此,他們提出了ToolSense,一個開源的自動診斷框架,可生成三種基準測試來更真實地評估模型對工具的理解。在ToolBench(約4.7萬個工具)上的實驗揭示了知識-檢索分離現象:一些模型在標準基準上表現良好,但在更現實的查詢中性能大幅下降,甚至低於嵌入基線。

來源arXiv AI作者: Ashutosh Hathidara, Sai Shruthi Sistla, Sebastian Schreiber, Sahil Bansal

大語言模型(LLM)被部署為智能代理時,常常需要從龐大的工具目錄中檢索合適的工具。傳統的基於嵌入的檢索方法依賴緊湊的編碼器,可能難以捕捉專業工具的語義信息。參數化工具檢索通過將每個工具編碼為虛擬令牌並添加到LLM詞彙表中,再經過兩階段微調(記憶化階段和檢索SFT階段),使LLM本身成為檢索器。這種方法在標準的ToolBench檢索基準上取得了強勁性能。然而,這些基準使用詳盡且完全指定的查詢,並使用約束解碼來限制輸出為有效令牌路徑,因此無法揭示模型是否真正理解其工具。

為了更真實地評估LLM的工具理解能力,來自SAP的研究人員提出了ToolSense,這是一個基於LLM的開源診斷框架。ToolSense可以接受任意工具目錄作為輸入,並自動生成三種基準測試:真實檢索基準(RRB),包含三個歧義層級的查詢;多項選擇探測基準(MCQ);以及問答探測基準(QA)。研究團隊將ToolSense應用於擁有約4.7萬個工具的ToolBench,並評估了五種參數化模型訓練配置。結果揭示了知識-檢索分離現象:在RRB查詢上,幾種配置的性能相比完全指定的ToolBench基準下降了約50至64個百分點,甚至低於嵌入模型基線。此外,儘管某些模型在檢索方面表現強勁,但其事實性探測得分接近隨機水平,進一步證實了知識-檢索分離的存在。

這項研究指出了當前基準測試的侷限性,並提供了更嚴格的評估框架。ToolSense的開源發佈將幫助社區更準確地衡量LLM的工具理解能力,從而推動更可靠和實用的代理系統發展。研究人員已將ToolSense框架和ToolBench診斷基準開源在GitHub上,網址為https://github.com/sap/toolsense。