AI News HubLIVE
站內改寫1 分鐘閱讀

思考即回憶:推理如何解鎖大語言模型中的參數化知識

Google Research 的研究揭示了一個反直覺的現象:即使對於簡單的事實性問題,讓大語言模型生成推理鏈也能提高答案的準確性。研究發現兩種機制:計算緩衝(生成額外標記用於潛在計算)和事實啓動(生成相關事實以幫助召回正確答案)。

Google Research 的研究人員 Zorik Gekhman 和 Jonathan Herzig 在 2026 年 6 月 24 日發表的最新研究中,探討了一個反直覺的現象:為什麼允許大語言模型(LLM)生成推理軌跡(即鏈式思維,CoT)能幫助它們回憶起簡單的事實性知識,即使這些知識並不需要複雜的逐步推理?傳統觀點認為,鏈式思維對於多步驟推理任務有效,但對於單跳事實問題似乎沒有幫助。然而,研究表明,啓用推理後,模型能夠成功召回在推理關閉時幾乎無法獲取的正確答案。

通過一系列受控實驗,研究團隊揭示了兩種互補機制。第一種是“計算緩衝”效應:模型在生成推理標記時,即使這些標記是無意義的(例如重複的“讓我想想”),也提供了額外的計算步數(前向傳播),從而幫助模型優化內部狀態並提取難以獲取的事實。但計算緩衝的效果有限,當虛擬文本長度過長時收益遞減,且無法完全替代自然推理軌跡。第二種機制是“事實啓動”:模型在推理過程中會生成與問題相關的事實,這些事實起到了語義預熱的作用。例如,當被問及尼泊爾第十位國王的名字時,模型可能會先列舉前九位國王,這種列舉激活了相關記憶,從而提高了成功召回正確答案的概率。這一現象類似於人類認知中的“擴散激活”概念。

然而,事實啓動機制存在風險:模型生成的中介事實可能是幻覺。研究發現,如果推理軌跡中包含哪怕一個幻覺事實,模型得出正確答案的概率會顯著下降。這一發現提供了改進模型可靠性的途徑:通過測試時選擇策略,從多個推理軌跡中優先選擇包含可驗證、無幻覺事實的軌跡,可以大幅提高準確率。研究團隊強調,推理在大語言模型中的作用遠不止任務分解或邏輯推理,它還是暴露模型內部記憶和擴展參數知識邊界的基本機制。未來工作可以利用過程獎勵來鼓勵事實支持的中間步驟,從而訓練出更可靠、更少幻覺的模型。