2026-06-01 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

NumLeak: 公共數值基準作為基礎模型中的潛在標籤

本文提出NumLeak框架，用於檢測基礎模型對公共數值基準的記憶。頂級LLM能夠高精度回憶訓練數據中的精確數值，造成虛假的準確性印象。實驗表明模型對金融經濟數據的相關性高達0.99，但在近期發佈的數據上表現驟降。白盒logprob分析比開放式生成更能檢測記憶，簡單系統提示防禦可阻止大多數攻擊。

來源arXiv Machine Learning作者: Anany Kotawala

在人工智能領域，大型語言模型（LLM）的能力評估一直是一個關鍵問題。近日，一篇來自ICML 2026研討會的論文揭示了令人震驚的現象：頂級LLM可能並非真正具備數值推理能力，而是通過記憶訓練數據中的公共數值基準來獲得高分。該研究提出了NumLeak框架，旨在系統性地檢測這一記憶現象。

NumLeak結合了API邊界探測和開源因果語言模型的白盒驗證。研究人員發現，前沿LLM能夠以驚人的精度回憶Fama-French市場超額收益，皮爾遜相關係數達到0.97至0.99，並且在五個兄弟因素上保持25個基點以內的誤差。類似的高保真度還出現在美國失業率、CPI通脹和NOAA温度等數據上。這種記憶能力使得模型在評估中表現出看似卓越的預測能力，但實際上只是對歷史數據的簡單複述。

然而，當使用近期發佈的保留數據集時，模型的表現急劇下降：解析率驟降至21%至57%，但在已回答的月份上，相關係數仍然維持在0.99左右。這種不對稱性恰好符合記憶通道的預測。進一步的白盒實驗顯示，logprob排序能夠檢測到開放式生成所遺漏的記憶，這表明封閉API的黑盒探測嚴重低估了記憶現象的嚴重性。

一個名為Sonnet的模型在日期到市場情緒的迴歸分析中，初始相關係數為0.74，但在剔除模型自身的記憶後，相關係數驟降至0.02。這充分説明，所謂的“預測能力”在很大程度上依賴於對訓練數據的記憶。

令人欣慰的是，研究人員提出了一種簡單有效的防禦方法：單行系統提示。該防禦措施能夠阻止99.8%的非自適應單輪後綴攻擊，同時對模型的概念查詢和歷史敍述查詢的實用性幾乎無影響。這一發現為緩解LLM的記憶問題提供了實際可行的解決方案。

這項研究對於人工智能領域具有深遠影響。它提醒我們，在評估LLM時必須謹慎區分記憶和真正的推理能力。研究者呼籲開發更加可靠的評估方法，避免被記憶現象所誤導。NumLeak框架不僅揭示了當前評估體系的缺陷，也為未來的模型設計提供了重要參考。