2026-06-01 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

NumLeak: 公共数值基准作为基础模型中的潜在标签

本文提出NumLeak框架，用于检测基础模型对公共数值基准的记忆。顶级LLM能够高精度回忆训练数据中的精确数值，造成虚假的准确性印象。实验表明模型对金融经济数据的相关性高达0.99，但在近期发布的数据上表现骤降。白盒logprob分析比开放式生成更能检测记忆，简单系统提示防御可阻止大多数攻击。

来源arXiv Machine Learning作者: Anany Kotawala

在人工智能领域，大型语言模型（LLM）的能力评估一直是一个关键问题。近日，一篇来自ICML 2026研讨会的论文揭示了令人震惊的现象：顶级LLM可能并非真正具备数值推理能力，而是通过记忆训练数据中的公共数值基准来获得高分。该研究提出了NumLeak框架，旨在系统性地检测这一记忆现象。

NumLeak结合了API边界探测和开源因果语言模型的白盒验证。研究人员发现，前沿LLM能够以惊人的精度回忆Fama-French市场超额收益，皮尔逊相关系数达到0.97至0.99，并且在五个兄弟因素上保持25个基点以内的误差。类似的高保真度还出现在美国失业率、CPI通胀和NOAA温度等数据上。这种记忆能力使得模型在评估中表现出看似卓越的预测能力，但实际上只是对历史数据的简单复述。

然而，当使用近期发布的保留数据集时，模型的表现急剧下降：解析率骤降至21%至57%，但在已回答的月份上，相关系数仍然维持在0.99左右。这种不对称性恰好符合记忆通道的预测。进一步的白盒实验显示，logprob排序能够检测到开放式生成所遗漏的记忆，这表明封闭API的黑盒探测严重低估了记忆现象的严重性。

一个名为Sonnet的模型在日期到市场情绪的回归分析中，初始相关系数为0.74，但在剔除模型自身的记忆后，相关系数骤降至0.02。这充分说明，所谓的“预测能力”在很大程度上依赖于对训练数据的记忆。

令人欣慰的是，研究人员提出了一种简单有效的防御方法：单行系统提示。该防御措施能够阻止99.8%的非自适应单轮后缀攻击，同时对模型的概念查询和历史叙述查询的实用性几乎无影响。这一发现为缓解LLM的记忆问题提供了实际可行的解决方案。

这项研究对于人工智能领域具有深远影响。它提醒我们，在评估LLM时必须谨慎区分记忆和真正的推理能力。研究者呼吁开发更加可靠的评估方法，避免被记忆现象所误导。NumLeak框架不仅揭示了当前评估体系的缺陷，也为未来的模型设计提供了重要参考。