2026-05-29 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

連續性與序數性至關重要：約束時間序列標記以實現基於大型語言模型的有效時間序列分析

本文提出COM方法，通過在初始化和訓練階段引入幾何約束，保留時間序列標記的連續性和序數性，顯著提升基於令牌的時間序列大語言模型（TS-LLM）的性能。實驗表明，COM在多個基準上取得一致改進和強泛化能力。

來源arXiv Machine Learning作者: Musheng Li, Ziying Zhang, Cheng jin, Yuantao Gu

近年來，大型語言模型（LLM）在自然語言處理領域取得了顯著成功，研究者們開始探索將其應用於時間序列分析。基於令牌的時間序列大語言模型（TS-LLM）通過將連續的時間序列數據離散化為令牌，利用LLM的強大推理能力進行模式識別和預測。然而，現有方法往往忽視了時間序列數據固有的兩個關鍵特性：連續性和序數性。連續性指的是時間序列中相鄰時間點的數值變化是連續的，而非跳躍式的；序數性則強調時間點之間的順序關係，即時間戳的先後順序至關重要。忽略這些特性嚴重限制了TS-LLM的性能，使其難以捕捉時間序列的底層動態結構。

針對這一挑戰，來自Musheng Li及其合作者的研究團隊提出了一種名為COM（Continuity and Ordinality Matter）的策略。COM的核心思想是在令牌嵌入的初始化和訓練過程中引入幾何約束，以強制保持時間序列令牌的連續性和序數性。具體而言，在初始化階段，COM使用一維流形或網格等預定義的幾何結構來初始化令牌嵌入，確保相鄰令牌在嵌入空間中的距離能夠反映時間序列的序數關係。在訓練階段，COM引入一個正則化項，鼓勵嵌入空間在模型學習過程中維持這種幾何結構，從而防止令牌之間的固有關係被破壞。這種方法不僅簡單有效，而且可以輕鬆集成到現有的TS-LLM框架中。

研究團隊在多個標準時間序列分析基準上進行了全面的實驗評估，包括分類、迴歸、預測和異常檢測等任務。實驗結果表明，COM能夠一致地提升各種TS-LLM基線的性能，尤其是在需要精細時序推理的任務上，如長期預測和異常檢測，改進尤為顯著。與未使用COM的模型相比，COM不僅帶來了更高的準確性和魯棒性，還展現出強大的跨數據集和跨任務泛化能力。此外，COM的計算開銷很小，不會顯著增加訓練或推理成本。

為了促進該領域的進一步研究，團隊已在匿名倉庫中公開了COM的完整實現代碼，以便其他研究者復現結果並在此基礎上進行改進。該論文於2026年5月22日提交至arXiv，所屬領域為機器學習（cs.LG）和人工智能（cs.AI）。COM的提出為時間序列分析與LLM的結合提供了一種新的視角，通過顯式建模時間序列的底層結構，有望推動TS-LLM在金融、醫療、氣象等實際應用中的廣泛部署。未來工作可以探索更復雜的幾何約束形式，例如高維流形或動態調整的結構，並研究如何將COM與時間序列的數據增強和特徵工程方法相結合，以進一步提升模型的性能和泛化能力。