2026-05-27 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

TSFMAudit: 時系列基盤モデルの事前学習データ汚染監査

時系列基盤モデル（TSFM）の事前学習において評価データセットが露出し、性能評価が過度に楽観的になる懸念に対し、本研究はTSFMの事前学習データ汚染監査を初めて研究した。提案手法TSFMAuditは、プローブ適応ダイナミクスに基づき、微調整プローブ後、汚染データセットでより速い損失減少と小さなバックボーン移動を示すことを利用する。6つのTSFMと187データセットで評価し、LLM文献から適応した10のベースラインを上回った。

ソースarXiv Machine Learning著者: Hongkai Li, Shifeng Xie, Lefei Shen, Zhuo Li, Mouxiang Chen, Xiaobin Zhang, Han Fu, Jianling Sun, Xiaoxue Ren, Chenghao Liu

時系列基盤モデル（TSFM）は大規模コーパスで事前学習されることが増えており、評価データセットが事前学習中に露出し、性能推定が過度に楽観的になる懸念が生じている。しかし、時系列分野でのこのような汚染の監査は、信号が連続的で不均一であり、コーパスの文書化が不十分なことが多いため、困難である。本研究は、TSFMの事前学習汚染監査に取り組んだ初めての研究である。

研究者らは、TSFMの事前学習汚染監査問題を正式に定義し、プローブ適応ダイナミクス（probe adaptation dynamics）に基づく手法TSFMAuditを提案した。核となる直感は、汚染が異常に効率的な適応として現れるというものである。すなわち、微調整プローブ後、汚染されたデータセットは、より速い損失減少とより小さなバックボーン移動を示す傾向がある。これは、モデルが汚染データを部分的に「記憶」しているため、適応に必要な調整が少なくて済むという原理に基づく。

TSFMAuditの有効性を検証するため、6つのTSFMと187のデータセットで実験を行い、文書化された訓練ソース証拠を教師信号として使用した。大規模言語モデル（LLM）の文献から適応した10の競合ベースラインと比較した結果、TSFMAuditは事前学習データ汚染の検出において既存手法を大幅に上回った。

この研究は、時系列基盤モデルの信頼性評価に重要なツールを提供し、実世界のシナリオでの性能評価の正確性を確保する一助となる。将来的には、より広範な時系列タスクへのTSFMAuditの適用可能性を探り、さまざまな汚染タイプに対応するより精緻な検出戦略の開発を目指す。

本研究はHongkai Li氏を含む10名の著者によって行われ、論文は22ページ、7図、9表で構成され、2026年5月24日に提出された。また、時系列データの連続性や不均一性、コーパス文書の欠如など、TSFMの事前学習汚染監査における課題についても議論されている。TSFMAuditの設計は、微調整プロセスにおける汚染データセットの独特な挙動を最大限に活用しており、時系列基盤モデルの透明性評価に新たな道を開く。研究のコードとデータは将来公開される予定である。