連續性與序數性至關重要:約束時間序列標記以實現基於大型語言模型的有效時間序列分析
本文提出COM方法,通過在初始化和訓練階段引入幾何約束,保留時間序列標記的連續性和序數性,顯著提升基於令牌的時間序列大語言模型(TS-LLM)的性能。實驗表明,COM在多個基準上取得一致改進和強泛化能力。
文章情報
要點
- 時間序列大語言模型(TS-LLM)忽略了標記的連續性和序數性,導致性能受限。
- COM通過幾何約束在初始化和訓練中保留這些特性,提升模型效果。
- 在多個時間序列分析基準上,COM持續改進TS-LLM性能,具有強泛化性。
- 代碼已開源,供研究者使用。
為甚麼重要
這條新聞值得關注,因為時間序列大語言模型(TS-LLM)忽略了標記的連續性和序數性,導致性能受限。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
近年來,大型語言模型(LLM)在自然語言處理領域取得了顯著成功,研究者們開始探索將其應用於時間序列分析。基於令牌的時間序列大語言模型(TS-LLM)通過將連續的時間序列數據離散化為令牌,利用LLM的強大推理能力進行模式識別和預測。然而,現有方法往往忽視了時間序列數據固有的兩個關鍵特性:連續性和序數性。連續性指的是時間序列中相鄰時間點的數值變化是連續的,而非跳躍式的;序數性則強調時間點之間的順序關係,即時間戳的先後順序至關重要。忽略這些特性嚴重限制了TS-LLM的性能,使其難以捕捉時間序列的底層動態結構。
針對這一挑戰,來自Musheng Li及其合作者的研究團隊提出了一種名為COM(Continuity and Ordinality Matter)的策略。COM的核心思想是在令牌嵌入的初始化和訓練過程中引入幾何約束,以強制保持時間序列令牌的連續性和序數性。具體而言,在初始化階段,COM使用一維流形或網格等預定義的幾何結構來初始化令牌嵌入,確保相鄰令牌在嵌入空間中的距離能夠反映時間序列的序數關係。在訓練階段,COM引入一個正則化項,鼓勵嵌入空間在模型學習過程中維持這種幾何結構,從而防止令牌之間的固有關係被破壞。這種方法不僅簡單有效,而且可以輕鬆集成到現有的TS-LLM框架中。
研究團隊在多個標準時間序列分析基準上進行了全面的實驗評估,包括分類、迴歸、預測和異常檢測等任務。實驗結果表明,COM能夠一致地提升各種TS-LLM基線的性能,尤其是在需要精細時序推理的任務上,如長期預測和異常檢測,改進尤為顯著。與未使用COM的模型相比,COM不僅帶來了更高的準確性和魯棒性,還展現出強大的跨數據集和跨任務泛化能力。此外,COM的計算開銷很小,不會顯著增加訓練或推理成本。
為了促進該領域的進一步研究,團隊已在匿名倉庫中公開了COM的完整實現代碼,以便其他研究者復現結果並在此基礎上進行改進。該論文於2026年5月22日提交至arXiv,所屬領域為機器學習(cs.LG)和人工智能(cs.AI)。COM的提出為時間序列分析與LLM的結合提供了一種新的視角,通過顯式建模時間序列的底層結構,有望推動TS-LLM在金融、醫療、氣象等實際應用中的廣泛部署。未來工作可以探索更復雜的幾何約束形式,例如高維流形或動態調整的結構,並研究如何將COM與時間序列的數據增強和特徵工程方法相結合,以進一步提升模型的性能和泛化能力。