AI News HubLIVE
站内改写1 分钟阅读

ToolSense:一种用于审计大语言模型中参数化工具知识的诊断框架

研究人员发现,当前用于评估大语言模型工具检索能力的基准测试存在高估问题。为此,他们提出了ToolSense,一个开源的自动诊断框架,可生成三种基准测试来更真实地评估模型对工具的理解。在ToolBench(约4.7万个工具)上的实验揭示了知识-检索分离现象:一些模型在标准基准上表现良好,但在更现实的查询中性能大幅下降,甚至低于嵌入基线。

来源arXiv AI作者: Ashutosh Hathidara, Sai Shruthi Sistla, Sebastian Schreiber, Sahil Bansal

大语言模型(LLM)被部署为智能代理时,常常需要从庞大的工具目录中检索合适的工具。传统的基于嵌入的检索方法依赖紧凑的编码器,可能难以捕捉专业工具的语义信息。参数化工具检索通过将每个工具编码为虚拟令牌并添加到LLM词汇表中,再经过两阶段微调(记忆化阶段和检索SFT阶段),使LLM本身成为检索器。这种方法在标准的ToolBench检索基准上取得了强劲性能。然而,这些基准使用详尽且完全指定的查询,并使用约束解码来限制输出为有效令牌路径,因此无法揭示模型是否真正理解其工具。

为了更真实地评估LLM的工具理解能力,来自SAP的研究人员提出了ToolSense,这是一个基于LLM的开源诊断框架。ToolSense可以接受任意工具目录作为输入,并自动生成三种基准测试:真实检索基准(RRB),包含三个歧义层级的查询;多项选择探测基准(MCQ);以及问答探测基准(QA)。研究团队将ToolSense应用于拥有约4.7万个工具的ToolBench,并评估了五种参数化模型训练配置。结果揭示了知识-检索分离现象:在RRB查询上,几种配置的性能相比完全指定的ToolBench基准下降了约50至64个百分点,甚至低于嵌入模型基线。此外,尽管某些模型在检索方面表现强劲,但其事实性探测得分接近随机水平,进一步证实了知识-检索分离的存在。

这项研究指出了当前基准测试的局限性,并提供了更严格的评估框架。ToolSense的开源发布将帮助社区更准确地衡量LLM的工具理解能力,从而推动更可靠和实用的代理系统发展。研究人员已将ToolSense框架和ToolBench诊断基准开源在GitHub上,网址为https://github.com/sap/toolsense。