AI News HubLIVE
站内改写1 分钟阅读

RepSelect:通过表示选择性实现鲁棒的大语言模型遗忘

RepSelect是一种新的大语言模型遗忘方法,通过隔离遗忘集特有的表示来防止微调或少样本提示逆转遗忘效果,相比现有方法实现了4-50倍的抗逆向效果提升。

来源arXiv Computational Linguistics作者: Filip Sondej, Yushi Yang, Adam Mahdi

大型语言模型(LLM)的“遗忘”技术旨在让模型彻底忘记特定知识或价值观,同时不损害其通用能力。然而,当前的主流方法往往只能实现浅层遗忘——通过简单的微调或少样本提示即可逆转,暴露了其脆弱性。来自清华大学等机构的研究团队深入分析了这一问题的根源:现有方法在遗忘过程中针对的表示与保留集和攻击者恢复的子空间共享,因此既容易干扰通用能力,又容易被恢复。

为解决这一挑战,研究者提出了RepSelect(Representation Selectivity,表示选择性)。该方法的核心理念是:在每次更新前,通过崩塌权重梯度的前几个主成分,隔离出仅与遗忘集相关的表示,从而在保持通用能力完整的同时,限制微调所能恢复的信息。这样,模型对特定知识的遗忘更加深入和稳健。

研究团队在两个遗忘类别(生物危害知识和虐待倾向)上进行了评估,测试了四种模型家族(Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite),覆盖密集和混合专家架构。与五种流行基线方法(GradDiff、NPO、SimNPO、RMU、UNDIAL)相比,RepSelect在抗逆向测试中实现了4到50倍的答案准确率降低提升,并且对少样本提示攻击几乎完全鲁棒。

RepSelect的提出标志着LLM遗忘领域向深度和鲁棒性迈出了重要一步。通过精确选择要遗忘的表示,该方法有望在隐私保护、安全对齐等应用中发挥关键作用。未来,研究团队计划进一步探索如何将该方法应用于更大规模的模型和更复杂的遗忘场景。具体来说,他们将继续优化RepSelect算法,使其能够处理更广泛的遗忘需求,并探索与其他AI安全技术的结合。这篇论文于2026年6月15日提交至arXiv,作者包括Filip Sondej等。