Know2Guess:一种污染感知的多区域基准,用于大语言模型的知识边界评估
arXiv:2606.26101 新论文提出Know2Guess基准,包含1200个跨域问题,用于区分LLM的知识回答与猜测。评估了FLAN-T5、Qwen2.5-Instruct和Llama-3-Instruct模型,发现Qwen2.5-3B-Instruct表现最佳,但仍有校准不足等问题。
近年来,大语言模型(LLM)在各种任务中展现出惊人的能力,但如何可靠地评估它们的真实知识边界仍然是一个挑战。传统的评估方法往往难以区分模型是基于知识进行回答,还是通过猜测或数据污染来输出结果。针对这一问题,来自多个机构的研究人员提出了一种名为Know2Guess的污染感知多区域基准,旨在系统性地测量LLM从可回答知识到应弃权未知的过渡。
Know2Guess基准包含1,200个精心设计的问题,覆盖五个不同领域:常识、科学、历史、技术和社会。每个问题都带有明确的弃权期望标签,以及污染风险元数据,以确保评估的公平性。此外,基准采用双解析器机制:官方严格解析器和归一化鲁棒性解析器,以提高评估的准确性。研究人员对FLAN-T5、Qwen2.5-Instruct(包括3B和7B版本)和Llama-3-Instruct(8B)等多个主流模型进行了评估,采用锁定回答或弃权的提示、仅回答控制以及提示模板变体等多种设置。
实验结果表明,该基准并未被通用非回答行为解决。FLAN基线模型在有效弃权方面表现较弱,而经过指令调优的更强模型则显示出选择性但不完全的从回答到弃权的过渡。其中,Qwen2.5-3B-Instruct在整体可靠性上取得了最佳成绩,但在预期回答区域仍存在困难,校准性能不佳,并且良性项目的拒绝现象依然存在。提示和解析器的鲁棒性分析保留了主要的排名和定性结论。
Know2Guess基准因此提供了一个可复现的协议,用于审计可回答性、弃权、拒绝和污染作为LLM可靠性的不同但相互作用的维度。该数据集已在GitHub上公开,包含了16页的论文和3张图表,为后续研究提供了重要资源。这项工作的意义在于,它为开发更可靠的LLM评估方法奠定了基础,有助于推动模型在真实世界应用中的可信部署。