2026-05-19站内改写2 分鐘閱讀更新: 2026-06-12

TTE-Flash：透過思考-然後-嵌入令牌加速基於推理的多模態表示

最新研究表明，通用多模態嵌入（UME）從鏈式思維（CoT）推理中獲益顯著，但生成顯式CoT軌跡的計算開銷過大。本文提出用潛在思維令牌替代顯式CoT，這些令牌作為潛在變數可生成顯式CoT軌跡作為觀測變數。透過CoT生成損失最佳化思維令牌，再透過對比損失最佳化嵌入令牌，實現了恆定推理成本下的高效能、推理感知表示。研究探討了兩種關鍵架構設計，並推出了TTE-Flash-2B模型，在MMEB-v2基準上超越顯式CoT對應模型，同時思維令牌可文本和視覺解釋。此外，在15個影片資料集上的零樣本評估顯示，隨著思維令牌數量增加呈現擴充套件行為，並啟發了基於任務需求的自適應思維預算分配試點研究。

來源arXiv AI作者: Jianpeng Cheng, Xian Wu, Jiangfan Zhang, Wentao Bao, Chaitanya Ahuja, Shlok Kumar Mishra, Hanchao Yu, Yang Gao, Fan Xia, Qi Guo, Shaodan Zhai, Xiangjun Fan, Jun Xiao

在人工智慧領域，多模態表示學習一直是核心挑戰之一。通用多模態嵌入（UME）旨在將不同模態（如文本、影像、影片）的資訊統一到同一個嵌入空間中，以便進行跨模態檢索、分類等任務。最近的研究表明，結合鏈式思維（Chain-of-Thought，CoT）推理可以顯著提升UME的效能，因為推理過程能夠捕捉更深層的語義關聯。然而，現有的方法需要生成顯式的CoT軌跡，即讓模型輸出完整的推理步驟，這帶來了巨大的計算開銷，尤其是在需要即時響應的應用場景中。

針對這一瓶頸，來自多位研究者的最新工作提出了一種名為TTE-Flash的創新方法。該研究的核心思想是用潛在的“思維令牌”（think tokens）替代顯式的CoT軌跡。這些思維令牌被設計為潛在變數，它們可以生成顯式的CoT軌跡作為觀測變數，但本身並不需要輸出完整的推理過程。透過兩階段的最佳化策略——首先使用CoT生成損失來訓練思維令牌，使之能夠隱含地編碼推理資訊，然後使用對比損失來訓練嵌入令牌，從而產生最終的表示——模型能夠在推理成本恆定的情況下獲得高效能、推理感知的嵌入表示。

研究團隊深入探討了兩種關鍵架構設計。第一，如何從同一個大語言模型（LLM）骨幹中提取思維令牌和嵌入令牌。他們發現，透過共享底層網路並在不同層次上提取兩種令牌，可以有效地平衡效能與效率。第二，如何將這兩個任務作為相互依賴的任務進行聯合訓練，確保思維令牌的最佳化有助於嵌入令牌的學習。基於這些設計，他們推出了TTE-Flash-2B模型，該模型擁有20億引數，並在MMEB-v2基準測試中超越了其顯式CoT的對應版本。值得注意的是，TTE-Flash-2B產生的潛在思維令牌不僅在文本上可解釋，還可以透過注意力權重進行視覺化解釋，這使得模型的推理過程更加透明。

除了在標準基準上的出色表現，研究還在15個影片資料集上進行了零樣本評估。結果顯示，隨著思維令牌數量的增加，模型效能呈現擴充套件行為，這意味著可以透過增加令牌數量來提升效能，而無需改變模型架構。這一發現啟發了關於自適應思維預算分配的研究：根據任務的需求動態分配思維令牌的數量，從而在計算效率和表示質量之間取得最佳平衡。這項試點研究表明，對於複雜任務，可以分配更多的思維令牌；而對於簡單任務，則可以使用較少的令牌，從而進一步降低計算成本。

TTE-Flash的提出為構建高效且可解釋的多模態表示模型提供了新思路。它特別適用於需要即時推理的應用場景，例如影片理解、自動駕駛和互動式問答。未來，將潛在思維令牌與更大的模型結合，以及探索更精細的自適應分配策略，有望進一步推動該領域的發展。該研究以預印本形式釋出於arXiv，編號2605.16638，供研究人員參考。