2026-06-02 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

SENSE：基於語義嵌入導航與軟門控評估的檢索式推測解碼方法

提出SENSE方法，通過基於目標模型隱藏狀態的語義檢索和軟門控評估，提升檢索式推測解碼的魯棒性和效率，在LLaMA和Qwen上實現高達4.09的平均接受長度和3.26倍加速。

來源arXiv Computational Linguistics作者: Shaowen Chen, Zhicheng Liao, Hongwei Wang

推測解碼（Speculative Decoding, SD）作為一種有效的大語言模型（LLM）推理加速技術，近年來受到廣泛關注。其基本原理是利用一個輕量級的草稿模型快速生成一連串候選令牌，然後由目標模型對這些候選進行並行驗證，從而在保證生成質量不下降的前提下大幅提升推理速度。在眾多SD方法中，檢索式推測解碼（Retrieval-based Speculative Decoding, RSD）因其無需額外訓練、即插即用的特點而備受青睞。然而，傳統的RSD方法存在一個根本性問題：其檢索和驗證過程高度依賴於詞彙層面的精確匹配，這使得它對語言的表面變化（如同義詞替換、語序調整等）非常敏感，從而導致魯棒性不足。

針對這一挑戰，來自研究者Shaowen Chen等人的團隊提出了一種名為SENSE（Semantic Embedding Navigation with Soft-gated Evaluation）的新方法。SENSE的核心思想是將檢索過程從詞彙層面提升到語義層面。具體來説，它利用目標模型的隱藏狀態（hidden states）作為檢索錨點，通過計算語義嵌入之間的相似性來尋找與當前生成上下文相關的候選令牌。這種基於語義的檢索方式能夠有效捕捉句子的含義而非表面形式，因此能夠抵抗語言表達的自然變化。在此基礎上，SENSE引入了一個軟門控評估（Soft-gated Evaluation）模塊，該模塊不僅考慮候選令牌與目標令牌的匹配程度，還通過門控機制動態調整評估標準，從而更準確地判斷語義等價性。

為了驗證SENSE的有效性，研究團隊進行了一系列嚴格的實驗。他們將現有多種RSD方法分解為統一的原子原語框架，從而可以在組件級別進行公平比較。實驗覆蓋了多個領域的數據集，並在LLaMA和Qwen兩大主流模型家族上進行了測試。結果表明，SENSE在多個基線方法中表現最優，平均接受長度達到了4.09，加速比最高達到3.26倍，同時生成質量與原始模型無異。這意味着在實際應用中，SENSE能夠顯著降低推理時的延遲和計算資源消耗，尤其適合需要快速響應的場景。

SENSE的論文已於2026年4月14日提交至arXiv預印本平台，並歸類於計算與語言（cs.CL）、人工智能（cs.AI）和機器學習（cs.LG）等子領域。研究團隊表示，相關代碼將在論文正式發表後開源，以促進該領域的進一步研究。SENSE的提出不僅解決了傳統RSD方法的詞彙依賴問題，還為未來的推理加速研究提供了新的方向。