NumLeak: 公共數值基準作為基礎模型中的潛在標籤
本文提出NumLeak框架,用於檢測基礎模型對公共數值基準的記憶。頂級LLM能夠高精度回憶訓練數據中的精確數值,造成虛假的準確性印象。實驗表明模型對金融經濟數據的相關性高達0.99,但在近期發佈的數據上表現驟降。白盒logprob分析比開放式生成更能檢測記憶,簡單系統提示防禦可阻止大多數攻擊。
在人工智能領域,大型語言模型(LLM)的能力評估一直是一個關鍵問題。近日,一篇來自ICML 2026研討會的論文揭示了令人震驚的現象:頂級LLM可能並非真正具備數值推理能力,而是通過記憶訓練數據中的公共數值基準來獲得高分。該研究提出了NumLeak框架,旨在系統性地檢測這一記憶現象。
NumLeak結合了API邊界探測和開源因果語言模型的白盒驗證。研究人員發現,前沿LLM能夠以驚人的精度回憶Fama-French市場超額收益,皮爾遜相關係數達到0.97至0.99,並且在五個兄弟因素上保持25個基點以內的誤差。類似的高保真度還出現在美國失業率、CPI通脹和NOAA温度等數據上。這種記憶能力使得模型在評估中表現出看似卓越的預測能力,但實際上只是對歷史數據的簡單複述。
然而,當使用近期發佈的保留數據集時,模型的表現急劇下降:解析率驟降至21%至57%,但在已回答的月份上,相關係數仍然維持在0.99左右。這種不對稱性恰好符合記憶通道的預測。進一步的白盒實驗顯示,logprob排序能夠檢測到開放式生成所遺漏的記憶,這表明封閉API的黑盒探測嚴重低估了記憶現象的嚴重性。
一個名為Sonnet的模型在日期到市場情緒的迴歸分析中,初始相關係數為0.74,但在剔除模型自身的記憶後,相關係數驟降至0.02。這充分説明,所謂的“預測能力”在很大程度上依賴於對訓練數據的記憶。
令人欣慰的是,研究人員提出了一種簡單有效的防禦方法:單行系統提示。該防禦措施能夠阻止99.8%的非自適應單輪後綴攻擊,同時對模型的概念查詢和歷史敍述查詢的實用性幾乎無影響。這一發現為緩解LLM的記憶問題提供了實際可行的解決方案。
這項研究對於人工智能領域具有深遠影響。它提醒我們,在評估LLM時必須謹慎區分記憶和真正的推理能力。研究者呼籲開發更加可靠的評估方法,避免被記憶現象所誤導。NumLeak框架不僅揭示了當前評估體系的缺陷,也為未來的模型設計提供了重要參考。