NumLeak: 公共数值基准作为基础模型中的潜在标签
本文提出NumLeak框架,用于检测基础模型对公共数值基准的记忆。顶级LLM能够高精度回忆训练数据中的精确数值,造成虚假的准确性印象。实验表明模型对金融经济数据的相关性高达0.99,但在近期发布的数据上表现骤降。白盒logprob分析比开放式生成更能检测记忆,简单系统提示防御可阻止大多数攻击。
在人工智能领域,大型语言模型(LLM)的能力评估一直是一个关键问题。近日,一篇来自ICML 2026研讨会的论文揭示了令人震惊的现象:顶级LLM可能并非真正具备数值推理能力,而是通过记忆训练数据中的公共数值基准来获得高分。该研究提出了NumLeak框架,旨在系统性地检测这一记忆现象。
NumLeak结合了API边界探测和开源因果语言模型的白盒验证。研究人员发现,前沿LLM能够以惊人的精度回忆Fama-French市场超额收益,皮尔逊相关系数达到0.97至0.99,并且在五个兄弟因素上保持25个基点以内的误差。类似的高保真度还出现在美国失业率、CPI通胀和NOAA温度等数据上。这种记忆能力使得模型在评估中表现出看似卓越的预测能力,但实际上只是对历史数据的简单复述。
然而,当使用近期发布的保留数据集时,模型的表现急剧下降:解析率骤降至21%至57%,但在已回答的月份上,相关系数仍然维持在0.99左右。这种不对称性恰好符合记忆通道的预测。进一步的白盒实验显示,logprob排序能够检测到开放式生成所遗漏的记忆,这表明封闭API的黑盒探测严重低估了记忆现象的严重性。
一个名为Sonnet的模型在日期到市场情绪的回归分析中,初始相关系数为0.74,但在剔除模型自身的记忆后,相关系数骤降至0.02。这充分说明,所谓的“预测能力”在很大程度上依赖于对训练数据的记忆。
令人欣慰的是,研究人员提出了一种简单有效的防御方法:单行系统提示。该防御措施能够阻止99.8%的非自适应单轮后缀攻击,同时对模型的概念查询和历史叙述查询的实用性几乎无影响。这一发现为缓解LLM的记忆问题提供了实际可行的解决方案。
这项研究对于人工智能领域具有深远影响。它提醒我们,在评估LLM时必须谨慎区分记忆和真正的推理能力。研究者呼吁开发更加可靠的评估方法,避免被记忆现象所误导。NumLeak框架不仅揭示了当前评估体系的缺陷,也为未来的模型设计提供了重要参考。