NumLeak: 公開数値ベンチマークを基礎モデルの潜在ラベルとして利用
本稿では、基礎モデルが公開数値ベンチマークを記憶していることを検出するフレームワークNumLeakを提案する。トップLLMは訓練データから正確な数値を高精度に再現し、誤った精度感覚を生み出す。実験では金融・経済データで最大0.99の相関を示すが、新しいデータでは性能が急落する。ホワイトボックスlogprob分析はオープンエンド生成よりも記憶を検出でき、単純なシステムプロンプト防御がほとんどの攻撃を防ぐ。
大規模言語モデル(LLM)の評価において、真の能力と単なる記憶の区別は極めて重要です。最近発表されたICML 2026ワークショップの論文では、最先端のLLMが公開数値ベンチマークを記憶していることが明らかになりました。研究チームはNumLeakと呼ばれるフレームワークを開発し、API境界プローブとオープンな因果言語モデルを用いたホワイトボックス検証を組み合わせてこの現象を測定しました。
実験の結果、トップレベルのLLMはFama-French市場超過リターンをピアソン相関係数0.97〜0.99で再現し、5つの兄弟因子に対して25ベーシスポイント以内の精度を示しました。米国の失業率、CPIインフレ、NOAA気温データでも同様の忠実度が確認されました。しかし、最近公開された保留データセットでは、パース率が21〜57%に急落した一方、回答された月については相関係数が約0.99を維持しました。この拒否または想起の非対称性は、記憶チャネルの特徴と一致します。
ホワイトボックス実験では、対数確率(logprob)ランキングがオープンエンド生成では見逃される記憶を検出できました。これは、クローズドAPIのブラックボックスプローブが記憶チャネルを過小評価していることを示唆しています。さらに、Sonnetモデルを用いた「日付から市場センチメント」の回帰分析では、真のMkt-RFとの相関がr=0.74でしたが、モデル自身の記憶を除去した後にはr=0.02に低下しました。この結果は、モデルの予測能力の多くが訓練データの記憶に依存していることを示しています。
幸いなことに、研究者らはこの問題に対する効果的な防御策を発見しました。それは、単純な1行のシステムプロンプトです。この防御は、非適応的な単一ターンのサフィックス攻撃の99.8%をブロックし、概念的および歴史的なクエリの実用性にはほとんど影響を与えません。
この研究は、LLMの評価方法に警鐘を鳴らすものです。記憶と真の推論能力を区別するためのより堅牢な評価手法の開発が急務であることを示しています。NumLeakフレームワークは、現在の評価体系の欠陥を明らかにし、将来のモデル設計に重要な洞察を提供します。