編輯單個神經元能否修復LLM的重複迴圈?
研究表明,編輯單個神經元就可以消除Gemma 4指令調優模型中的重複迴圈,但在長時間推理中的“末日迴圈”仍無法徹底解決,這本質上是一個知識精度問題。
來自arXiv的一篇新研究論文探討了透過編輯單個神經元來消除大型語言模型(LLM)中的重複迴圈問題。研究者聚焦於Gemma 4指令調優模型,發現這些模型在處理長篇事實列舉提示時——例如列出某電視劇的所有劇集、88個IAU星座或151只原始寶可夢——會陷入重複迴圈。這些迴圈要麼是嚴格的逐字重複,要麼是列表逐漸收斂到單一答案,發生率高達95%,且無法透過措辭調整、推理引擎更改或取樣引數調整來消除。
為了定位問題的根源,研究團隊採用了逐層消融和逐神經元歸因的方法,並透過完整生成掃描來確認最強候選。結果表明,迴圈可以追溯到一小部分MLP神經元(在26B-A4B混合專家模型中,則是幾個路由專家)。透過靜態權重編輯抑制這些神經元,就能有效消除迴圈。在最極端的情況下,E2B模型中僅需反轉單個神經元的符號即可。有效編輯的規模隨模型規模增大而增加,但在所有情況下,此方法都能在正常生成預算下解決迴圈問題,同時保持模型的通用基準效能。
然而,編輯並不能解決所有問題。研究還考察了更長的思考預算,發現兩個較大的模型在無法回憶起某個事即時,會進入一種“末日迴圈”:模型在無法回憶的事實上自我糾正,反覆兜圈子,最終耗盡預算而無法給出最終答案。同樣的編輯方法雖然能減輕這一問題,但無法完全消除。研究人員認為,這本質上是一個知識精度問題,而非可移除的電路故障——權重編輯可以刪除一個迴圈,但無法提供缺失的事實。
該研究的重大意義在於,它一方面證明了具體的生成病理可以定位到少數引數並透過編輯移除,另一方面也劃定了這種方法的邊界。研究結果對理解LLM的失敗模式及其修復提供了有價值的見解,也為未來的模型除錯和最佳化指明瞭方向。儘管編輯單個神經元在解決重複迴圈問題上取得了成功,但“末日迴圈”的頑固性提醒我們,知識缺失問題需要更根本的解決方案。