TTE-Flash:通过思考-然后-嵌入令牌加速基于推理的多模态表示
最新研究表明,通用多模态嵌入(UME)从链式思维(CoT)推理中获益显著,但生成显式CoT轨迹的计算开销过大。本文提出用潜在思维令牌替代显式CoT,这些令牌作为潜在变量可生成显式CoT轨迹作为观测变量。通过CoT生成损失优化思维令牌,再通过对比损失优化嵌入令牌,实现了恒定推理成本下的高性能、推理感知表示。研究探讨了两种关键架构设计,并推出了TTE-Flash-2B模型,在MMEB-v2基准上超越显式CoT对应模型,同时思维令牌可文本和视觉解释。此外,在15个视频数据集上的零样本评估显示,随着思维令牌数量增加呈现扩展行为,并启发了基于任务需求的自适应思维预算分配试点研究。
在人工智能领域,多模态表示学习一直是核心挑战之一。通用多模态嵌入(UME)旨在将不同模态(如文本、图像、视频)的信息统一到同一个嵌入空间中,以便进行跨模态检索、分类等任务。最近的研究表明,结合链式思维(Chain-of-Thought,CoT)推理可以显著提升UME的性能,因为推理过程能够捕捉更深层的语义关联。然而,现有的方法需要生成显式的CoT轨迹,即让模型输出完整的推理步骤,这带来了巨大的计算开销,尤其是在需要实时响应的应用场景中。
针对这一瓶颈,来自多位研究者的最新工作提出了一种名为TTE-Flash的创新方法。该研究的核心思想是用潜在的“思维令牌”(think tokens)替代显式的CoT轨迹。这些思维令牌被设计为潜在变量,它们可以生成显式的CoT轨迹作为观测变量,但本身并不需要输出完整的推理过程。通过两阶段的优化策略——首先使用CoT生成损失来训练思维令牌,使之能够隐含地编码推理信息,然后使用对比损失来训练嵌入令牌,从而产生最终的表示——模型能够在推理成本恒定的情况下获得高性能、推理感知的嵌入表示。
研究团队深入探讨了两种关键架构设计。第一,如何从同一个大语言模型(LLM)骨干中提取思维令牌和嵌入令牌。他们发现,通过共享底层网络并在不同层次上提取两种令牌,可以有效地平衡性能与效率。第二,如何将这两个任务作为相互依赖的任务进行联合训练,确保思维令牌的优化有助于嵌入令牌的学习。基于这些设计,他们推出了TTE-Flash-2B模型,该模型拥有20亿参数,并在MMEB-v2基准测试中超越了其显式CoT的对应版本。值得注意的是,TTE-Flash-2B产生的潜在思维令牌不仅在文本上可解释,还可以通过注意力权重进行视觉化解释,这使得模型的推理过程更加透明。
除了在标准基准上的出色表现,研究还在15个视频数据集上进行了零样本评估。结果显示,随着思维令牌数量的增加,模型性能呈现扩展行为,这意味着可以通过增加令牌数量来提升性能,而无需改变模型架构。这一发现启发了关于自适应思维预算分配的研究:根据任务的需求动态分配思维令牌的数量,从而在计算效率和表示质量之间取得最佳平衡。这项试点研究表明,对于复杂任务,可以分配更多的思维令牌;而对于简单任务,则可以使用较少的令牌,从而进一步降低计算成本。
TTE-Flash的提出为构建高效且可解释的多模态表示模型提供了新思路。它特别适用于需要实时推理的应用场景,例如视频理解、自动驾驶和交互式问答。未来,将潜在思维令牌与更大的模型结合,以及探索更精细的自适应分配策略,有望进一步推动该领域的发展。该研究以预印本形式发布于arXiv,编号2605.16638,供研究人员参考。