AI News HubLIVE
站内改写2 分鐘閱讀

模型在預填充階段做筆記:KV快取變得可編輯且可組合

研究表明,大型語言模型在預填充階段會將欄位條件結論寫入下游筆記,使得KV快取具有可編輯性和可組合性。透過鏈式思維編輯欄位即可恢復決策,而預編譯的技能可透過RoPE重新定位並拼接至任意上下文,實現與完全重新計算幾乎無差異的結果,同時延遲降低多達14.9倍。該方法適用於多種注意力和快取變體,並在線上vLLM基準測試中保持98.5%的快取命中率。

來源arXiv Machine Learning作者: Bojie Li

大型語言模型(LLM)的推理效率一直是研究熱點,其中KV快取技術透過快取鍵值對來避免重複計算,顯著加速生成過程。然而,傳統的字首快取要求共享字首完全一致,任何欄位的變化都會導致整個下游快取失效。最新研究《Models Take Notes at Prefill: KV Cache Can Be Editable and Composable》揭示了這一現象背後的深層原因,並提出了兩種革命效能力:可編輯和可組合的KV快取。

研究團隊跨四個模型家族進行了因果分析,發現一個關鍵現象:在預填充階段,模型不僅處理當前欄位,還會將基於該欄位得到的結論寫入後續的“筆記”中。這些筆記實際上決定了模型的最終輸出,而欄位本身的鍵/值向量對決策的貢獻不足1%。因此,僅僅覆蓋欄位本身的向量而保留下游快取,模型仍然基於舊值做出判斷。

基於這一認識,研究人員提出了兩種新能力。首先是可編輯性:當需要修正錯誤時,只需透過鏈式思維(Chain-of-Thought)編輯相關欄位,模型就會自動調整其筆記。實驗表明,在8B模型上使用鏈式思維編輯欄位,可以完全恢復正確決策,且僅需約1%的額外計算量;而如果直截了當地修改欄位而不使用鏈式思維,修改將被忽略。其次是可組合性:由於筆記是位置無關的,可以將預編譯的技能(例如特定的推理步驟)透過旋轉位置編碼(RoPE)進行位置調整後,無縫插入任意上下文中。這種方法的時間複雜度為O(L),而完全重新計算為O(L²),且兩者的輸出logit餘弦相似度高達0.90至0.999。在一項實驗中,統一的編輯+組合代理實現了與完全重新計算在決策上完全一致的輸出,同時延遲降低最高達14.9倍。

該方法的通用性令人印象深刻。它不僅適用於任何基於逐token注意力的KV快取,還在不同模型規模、量化版本、混合專家模型(MoE)以及多模態快取中得到了驗證。透過小型介面卡,該方法還可擴充套件至多種注意力變體。此外,由於錯誤的修正是以追加形式進行的,它能夠與生產級字首快取協同工作。在線上vLLM基準測試中,該方法保持了98.5%的快取命中率,並將p90首次令牌生成時間降低了53至398倍。

這項研究為LLM推理最佳化開闢了新方向。透過將KV快取視為可編輯和可組合的“筆記”,我們能夠在保持決策質量的同時大幅提升效率。未來,這一方法有望在即時應用、模型微調場景以及在有限計算資源下部署大型模型時發揮關鍵作用。