TTE-Flash:透過思考-然後-嵌入令牌加速基於推理的多模態表示
最新研究表明,通用多模態嵌入(UME)從鏈式思維(CoT)推理中獲益顯著,但生成顯式CoT軌跡的計算開銷過大。本文提出用潛在思維令牌替代顯式CoT,這些令牌作為潛在變數可生成顯式CoT軌跡作為觀測變數。透過CoT生成損失最佳化思維令牌,再透過對比損失最佳化嵌入令牌,實現了恆定推理成本下的高效能、推理感知表示。研究探討了兩種關鍵架構設計,並推出了TTE-Flash-2B模型,在MMEB-v2基準上超越顯式CoT對應模型,同時思維令牌可文本和視覺解釋。此外,在15個影片資料集上的零樣本評估顯示,隨著思維令牌數量增加呈現擴充套件行為,並啟發了基於任務需求的自適應思維預算分配試點研究。
在人工智慧領域,多模態表示學習一直是核心挑戰之一。通用多模態嵌入(UME)旨在將不同模態(如文本、影像、影片)的資訊統一到同一個嵌入空間中,以便進行跨模態檢索、分類等任務。最近的研究表明,結合鏈式思維(Chain-of-Thought,CoT)推理可以顯著提升UME的效能,因為推理過程能夠捕捉更深層的語義關聯。然而,現有的方法需要生成顯式的CoT軌跡,即讓模型輸出完整的推理步驟,這帶來了巨大的計算開銷,尤其是在需要即時響應的應用場景中。
針對這一瓶頸,來自多位研究者的最新工作提出了一種名為TTE-Flash的創新方法。該研究的核心思想是用潛在的“思維令牌”(think tokens)替代顯式的CoT軌跡。這些思維令牌被設計為潛在變數,它們可以生成顯式的CoT軌跡作為觀測變數,但本身並不需要輸出完整的推理過程。透過兩階段的最佳化策略——首先使用CoT生成損失來訓練思維令牌,使之能夠隱含地編碼推理資訊,然後使用對比損失來訓練嵌入令牌,從而產生最終的表示——模型能夠在推理成本恆定的情況下獲得高效能、推理感知的嵌入表示。
研究團隊深入探討了兩種關鍵架構設計。第一,如何從同一個大語言模型(LLM)骨幹中提取思維令牌和嵌入令牌。他們發現,透過共享底層網路並在不同層次上提取兩種令牌,可以有效地平衡效能與效率。第二,如何將這兩個任務作為相互依賴的任務進行聯合訓練,確保思維令牌的最佳化有助於嵌入令牌的學習。基於這些設計,他們推出了TTE-Flash-2B模型,該模型擁有20億引數,並在MMEB-v2基準測試中超越了其顯式CoT的對應版本。值得注意的是,TTE-Flash-2B產生的潛在思維令牌不僅在文本上可解釋,還可以透過注意力權重進行視覺化解釋,這使得模型的推理過程更加透明。
除了在標準基準上的出色表現,研究還在15個影片資料集上進行了零樣本評估。結果顯示,隨著思維令牌數量的增加,模型效能呈現擴充套件行為,這意味著可以透過增加令牌數量來提升效能,而無需改變模型架構。這一發現啟發了關於自適應思維預算分配的研究:根據任務的需求動態分配思維令牌的數量,從而在計算效率和表示質量之間取得最佳平衡。這項試點研究表明,對於複雜任務,可以分配更多的思維令牌;而對於簡單任務,則可以使用較少的令牌,從而進一步降低計算成本。
TTE-Flash的提出為構建高效且可解釋的多模態表示模型提供了新思路。它特別適用於需要即時推理的應用場景,例如影片理解、自動駕駛和互動式問答。未來,將潛在思維令牌與更大的模型結合,以及探索更精細的自適應分配策略,有望進一步推動該領域的發展。該研究以預印本形式釋出於arXiv,編號2605.16638,供研究人員參考。