為何將殘差流限制在層而非令牌?持續潛在推理的持久記憶
大型語言模型在數學和多跳規劃任務中展現了強大的推理能力。CoCoNuT範式允許模型在潛在空間同時探索多條推理路徑,但研究者發現了一個“概念瓶頸”問題:每次推理時中間隱藏狀態被覆蓋,導致模型在深度推理中丟失早期步驟的關鍵事實。為解決此問題,他們提出AGCLR(自適應門控持續潛在推理),通過寫、讀、忘三個門控機制維護持久殘差記憶。在GSM8K、HotpotQA和ProsQA上使用GPT-2的評估顯示,AGCLR在所有數據集上取得一致改進,且隨着課程深度增加,性能差距擴大,直接解決了概念瓶頸。
大型語言模型(LLM)在數學推理和多跳規劃任務中展示了卓越的能力。CoCoNuT(連續思維鏈)範式通過允許模型在潛在空間進行推理,同時探索多條推理路徑,擴展了傳統的思維鏈方法。然而,研究者發現了一個關鍵限制——概念瓶頸。在每個推理步驟中,中間隱藏狀態被完全覆蓋,導致模型在推理深度增加時丟失了早期計算的關鍵事實。
實驗證據表明了這一問題的嚴重性:在HotpotQA數據集上,標準CoCoNuT的精確匹配率(EM)僅為10.4%,甚至低於思維鏈基線的11.0%;在GSM8K上,隨着課程深度增加,性能持續下降。這表明現有方法無法有效保留推理過程中產生的中間概念。
為了解決這一瓶頸,研究者提出了AGCLR(自適應門控持續潛在推理)。AGCLR在CoCoNuT基礎上增加了一個門控概念流——一種跨所有推理步驟維護的持久殘差記憶。該記憶由三個可學習門控控制:寫入門將中間事實提交到記憶,讀取門檢索相關的先前狀態,遺忘門則修剪無關上下文。這種設計使模型能夠保留和利用早期推理步驟中的重要信息。
在GSM8K、HotpotQA和ProsQA三個數據集上,使用GPT-2作為基礎模型的評估顯示,AGCLR在所有類型的數據集上均取得了持續改進。隨着課程深度的增加,性能差距進一步擴大,直接解決了概念瓶頸問題。研究者已公開代碼,以促進後續研究。這項工作為持續潛在推理提供了新的方向,表明通過持久記憶機制可以顯著提升深度學習模型的推理能力。