2026-05-27 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

TSFMAudit：時間序列基礎模型預訓練資料汙染審計

針對時間序列基礎模型（TSFMs）在預訓練中可能遇到評估資料集導致效能評估過於樂觀的問題，本文首次研究了TSFMs的預訓練資料汙染審計。提出TSFMAudit方法，基於探測適應動態，透過微調探測後汙染資料集更快的損失下降和更小的骨幹網路移動來檢測汙染。在6個TSFMs和187個資料集上評估，優於10個基線方法。

來源arXiv Machine Learning作者: Hongkai Li, Shifeng Xie, Lefei Shen, Zhuo Li, Mouxiang Chen, Xiaobin Zhang, Han Fu, Jianling Sun, Xiaoxue Ren, Chenghao Liu

時間序列基礎模型（TSFMs）正越來越多地在大型語料庫上進行預訓練，這引發了一個關鍵問題：評估資料集可能在預訓練期間已經暴露，從而產生過於樂觀的效能估計。然而，審計這種汙染在時間序列領域極具挑戰性，因為訊號是連續且異質的，並且通常缺乏語料文件。據我們所知，這是首次研究TSFMs預訓練汙染審計的工作。

研究者正式提出了TSFMs預訓練汙染審計問題，並設計了TSFMAudit方法，該方法基於探測適應動態（probe adaptation dynamics）。核心直覺是：汙染表現為異常高效的適應過程。在對模型進行微調探測後，被汙染的資料集往往表現出更快的損失下降和更小的骨幹網路引數移動。這一現象背後的原理是，模型已經部分“記住”了汙染資料，因此只需較小的調整即可適應。

為了驗證TSFMAudit的有效性，研究者在6個TSFMs和187個資料集上進行了實驗，使用文件化的訓練來源證據作為監督訊號。他們與從大語言模型（LLM）文獻中改編的10個競爭基線進行了比較。結果表明，TSFMAudit在檢測預訓練資料汙染方面顯著優於現有方法。

這項工作為時間序列基礎模型的可靠性評估提供了重要工具，有助於確保模型在真實場景中的效能評估更加準確。未來，研究者計劃進一步探索TSFMAudit在更廣泛的時間序列任務中的適用性，並開發針對不同汙染型別的更精細化檢測策略。

該研究由Hongkai Li等10位作者完成，論文共22頁，包含7張圖和9張表，提交於2026年5月24日。論文還討論了TSFMs的預訓練資料汙染審計的挑戰，例如時間序列資料的連續性和異質性，以及缺乏語料文件的問題。TSFMAudit的設計充分利用了微調過程中汙染資料集的獨特行為特徵，為時間序列基礎模型的透明度評估開闢了新途徑。研究程式碼和資料將在未來公開。