AI News HubLIVE
站内改写1 分で読了

RepSelect: 表現選択性によるロバストなLLMアンラーニング

RepSelectは、重み勾配の主成分を崩壊させることで忘却セット固有の表現を分離し、既存手法よりも4〜50倍優れた逆転耐性を達成する新しいLLMアンラーニング手法です。

ソースarXiv Computational Linguistics著者: Filip Sondej, Yushi Yang, Adam Mahdi

大規模言語モデル(LLM)の「アンラーニング」技術は、特定の知識や価値観を深く忘れさせつつ、一般的な能力を損なわないことを目的としています。しかし、現在の手法は微調整や少数ショットプロンプトによって簡単に逆転されてしまい、忘却が浅いものに留まっていることが課題でした。

この問題の根本原因として、既存手法が忘却セットと保持セットの両方に共有される表現をターゲットにしていることが挙げられます。これにより、一般的な能力を妨害しやすく、かつ攻撃者による回復が容易になります。

研究チームは新たにRepSelect(Representation Selectivity)を提案しました。この手法は、各更新前に重み勾配の上位主成分を崩壊させることで、忘却セット固有の表現を分離します。これにより、一般的な能力を維持しつつ、微調整によって回復可能な情報を制限します。

評価は、生物危害知識と虐待傾向という2つの忘却カテゴリ、およびLlama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Liteの4つのモデルファミリー(密結合および混合専門家アーキテクチャを含む)で行われました。5つのベースライン手法(GradDiff、NPO、SimNPO、RMU、UNDIAL)との比較では、RepSelectは再学習後の回答精度において最も強いベースラインより4〜50倍大きな低減を達成し、少数ショットプロンプト攻撃に対してもほぼ完全にロバストであることが示されました。

RepSelectは、選択的な表現をターゲットにすることで、深くロバストなLLM忘却への重要な一歩となります。この手法は、プライバシー保護や安全なAIアライメントなど、実用的な応用に貢献することが期待されます。今後の研究では、より大規模なモデルや複雑な忘却シナリオへの適用が計画されています。本論文は2026年6月15日にarXivに投稿され、著者にはFilip Sondej氏らが含まれます。