2026-05-19站内改写2 分钟阅读更新: 2026-06-12

TTE-Flash：通过思考-然后-嵌入令牌加速基于推理的多模态表示

最新研究表明，通用多模态嵌入（UME）从链式思维（CoT）推理中获益显著，但生成显式CoT轨迹的计算开销过大。本文提出用潜在思维令牌替代显式CoT，这些令牌作为潜在变量可生成显式CoT轨迹作为观测变量。通过CoT生成损失优化思维令牌，再通过对比损失优化嵌入令牌，实现了恒定推理成本下的高性能、推理感知表示。研究探讨了两种关键架构设计，并推出了TTE-Flash-2B模型，在MMEB-v2基准上超越显式CoT对应模型，同时思维令牌可文本和视觉解释。此外，在15个视频数据集上的零样本评估显示，随着思维令牌数量增加呈现扩展行为，并启发了基于任务需求的自适应思维预算分配试点研究。

来源arXiv AI作者: Jianpeng Cheng, Xian Wu, Jiangfan Zhang, Wentao Bao, Chaitanya Ahuja, Shlok Kumar Mishra, Hanchao Yu, Yang Gao, Fan Xia, Qi Guo, Shaodan Zhai, Xiangjun Fan, Jun Xiao

在人工智能领域，多模态表示学习一直是核心挑战之一。通用多模态嵌入（UME）旨在将不同模态（如文本、图像、视频）的信息统一到同一个嵌入空间中，以便进行跨模态检索、分类等任务。最近的研究表明，结合链式思维（Chain-of-Thought，CoT）推理可以显著提升UME的性能，因为推理过程能够捕捉更深层的语义关联。然而，现有的方法需要生成显式的CoT轨迹，即让模型输出完整的推理步骤，这带来了巨大的计算开销，尤其是在需要实时响应的应用场景中。

针对这一瓶颈，来自多位研究者的最新工作提出了一种名为TTE-Flash的创新方法。该研究的核心思想是用潜在的“思维令牌”（think tokens）替代显式的CoT轨迹。这些思维令牌被设计为潜在变量，它们可以生成显式的CoT轨迹作为观测变量，但本身并不需要输出完整的推理过程。通过两阶段的优化策略——首先使用CoT生成损失来训练思维令牌，使之能够隐含地编码推理信息，然后使用对比损失来训练嵌入令牌，从而产生最终的表示——模型能够在推理成本恒定的情况下获得高性能、推理感知的嵌入表示。

研究团队深入探讨了两种关键架构设计。第一，如何从同一个大语言模型（LLM）骨干中提取思维令牌和嵌入令牌。他们发现，通过共享底层网络并在不同层次上提取两种令牌，可以有效地平衡性能与效率。第二，如何将这两个任务作为相互依赖的任务进行联合训练，确保思维令牌的优化有助于嵌入令牌的学习。基于这些设计，他们推出了TTE-Flash-2B模型，该模型拥有20亿参数，并在MMEB-v2基准测试中超越了其显式CoT的对应版本。值得注意的是，TTE-Flash-2B产生的潜在思维令牌不仅在文本上可解释，还可以通过注意力权重进行视觉化解释，这使得模型的推理过程更加透明。

除了在标准基准上的出色表现，研究还在15个视频数据集上进行了零样本评估。结果显示，随着思维令牌数量的增加，模型性能呈现扩展行为，这意味着可以通过增加令牌数量来提升性能，而无需改变模型架构。这一发现启发了关于自适应思维预算分配的研究：根据任务的需求动态分配思维令牌的数量，从而在计算效率和表示质量之间取得最佳平衡。这项试点研究表明，对于复杂任务，可以分配更多的思维令牌；而对于简单任务，则可以使用较少的令牌，从而进一步降低计算成本。

TTE-Flash的提出为构建高效且可解释的多模态表示模型提供了新思路。它特别适用于需要实时推理的应用场景，例如视频理解、自动驾驶和交互式问答。未来，将潜在思维令牌与更大的模型结合，以及探索更精细的自适应分配策略，有望进一步推动该领域的发展。该研究以预印本形式发布于arXiv，编号2605.16638，供研究人员参考。