AI News HubLIVE
站内改写1 分钟阅读

编辑单个神经元能否修复LLM的重复循环?

研究表明,编辑单个神经元就可以消除Gemma 4指令调优模型中的重复循环,但在长时间推理中的“末日循环”仍无法彻底解决,这本质上是一个知识精度问题。

来源arXiv Machine Learning作者: Aristotelis Lazaridis, Aman Sharma, Dylan Bates, Brian King, Vincent Lu, Jack FitzGerald

来自arXiv的一篇新研究论文探讨了通过编辑单个神经元来消除大型语言模型(LLM)中的重复循环问题。研究者聚焦于Gemma 4指令调优模型,发现这些模型在处理长篇事实列举提示时——例如列出某电视剧的所有剧集、88个IAU星座或151只原始宝可梦——会陷入重复循环。这些循环要么是严格的逐字重复,要么是列表逐渐收敛到单一答案,发生率高达95%,且无法通过措辞调整、推理引擎更改或采样参数调整来消除。

为了定位问题的根源,研究团队采用了逐层消融和逐神经元归因的方法,并通过完整生成扫描来确认最强候选。结果表明,循环可以追溯到一小部分MLP神经元(在26B-A4B混合专家模型中,则是几个路由专家)。通过静态权重编辑抑制这些神经元,就能有效消除循环。在最极端的情况下,E2B模型中仅需反转单个神经元的符号即可。有效编辑的规模随模型规模增大而增加,但在所有情况下,此方法都能在正常生成预算下解决循环问题,同时保持模型的通用基准性能。

然而,编辑并不能解决所有问题。研究还考察了更长的思考预算,发现两个较大的模型在无法回忆起某个事实时,会进入一种“末日循环”:模型在无法回忆的事实上自我纠正,反复兜圈子,最终耗尽预算而无法给出最终答案。同样的编辑方法虽然能减轻这一问题,但无法完全消除。研究人员认为,这本质上是一个知识精度问题,而非可移除的电路故障——权重编辑可以删除一个循环,但无法提供缺失的事实。

该研究的重大意义在于,它一方面证明了具体的生成病理可以定位到少数参数并通过编辑移除,另一方面也划定了这种方法的边界。研究结果对理解LLM的失败模式及其修复提供了有价值的见解,也为未来的模型调试和优化指明了方向。尽管编辑单个神经元在解决重复循环问题上取得了成功,但“末日循环”的顽固性提醒我们,知识缺失问题需要更根本的解决方案。