2026-05-29 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

连续性与序数性至关重要：约束时间序列标记以实现基于大型语言模型的有效时间序列分析

本文提出COM方法，通过在初始化和训练阶段引入几何约束，保留时间序列标记的连续性和序数性，显著提升基于令牌的时间序列大语言模型（TS-LLM）的性能。实验表明，COM在多个基准上取得一致改进和强泛化能力。

来源arXiv Machine Learning作者: Musheng Li, Ziying Zhang, Cheng jin, Yuantao Gu

近年来，大型语言模型（LLM）在自然语言处理领域取得了显著成功，研究者们开始探索将其应用于时间序列分析。基于令牌的时间序列大语言模型（TS-LLM）通过将连续的时间序列数据离散化为令牌，利用LLM的强大推理能力进行模式识别和预测。然而，现有方法往往忽视了时间序列数据固有的两个关键特性：连续性和序数性。连续性指的是时间序列中相邻时间点的数值变化是连续的，而非跳跃式的；序数性则强调时间点之间的顺序关系，即时间戳的先后顺序至关重要。忽略这些特性严重限制了TS-LLM的性能，使其难以捕捉时间序列的底层动态结构。

针对这一挑战，来自Musheng Li及其合作者的研究团队提出了一种名为COM（Continuity and Ordinality Matter）的策略。COM的核心思想是在令牌嵌入的初始化和训练过程中引入几何约束，以强制保持时间序列令牌的连续性和序数性。具体而言，在初始化阶段，COM使用一维流形或网格等预定义的几何结构来初始化令牌嵌入，确保相邻令牌在嵌入空间中的距离能够反映时间序列的序数关系。在训练阶段，COM引入一个正则化项，鼓励嵌入空间在模型学习过程中维持这种几何结构，从而防止令牌之间的固有关系被破坏。这种方法不仅简单有效，而且可以轻松集成到现有的TS-LLM框架中。

研究团队在多个标准时间序列分析基准上进行了全面的实验评估，包括分类、回归、预测和异常检测等任务。实验结果表明，COM能够一致地提升各种TS-LLM基线的性能，尤其是在需要精细时序推理的任务上，如长期预测和异常检测，改进尤为显著。与未使用COM的模型相比，COM不仅带来了更高的准确性和鲁棒性，还展现出强大的跨数据集和跨任务泛化能力。此外，COM的计算开销很小，不会显著增加训练或推理成本。

为了促进该领域的进一步研究，团队已在匿名仓库中公开了COM的完整实现代码，以便其他研究者复现结果并在此基础上进行改进。该论文于2026年5月22日提交至arXiv，所属领域为机器学习（cs.LG）和人工智能（cs.AI）。COM的提出为时间序列分析与LLM的结合提供了一种新的视角，通过显式建模时间序列的底层结构，有望推动TS-LLM在金融、医疗、气象等实际应用中的广泛部署。未来工作可以探索更复杂的几何约束形式，例如高维流形或动态调整的结构，并研究如何将COM与时间序列的数据增强和特征工程方法相结合，以进一步提升模型的性能和泛化能力。