立場:術語“機器遺忘”在LLM中被過度使用
這篇立場論文指出,“機器遺忘”一詞在大型語言模型研究中被過度使用,應僅用於指代資料集定義的刪除。許多當前標為“遺忘”的任務實際上追求不同的目標,如對齊、抑制、編輯或混淆,需要不同的術語和評估方法。作者呼籲採用更嚴格的術語,並與明確的保證和參考模型掛鉤。
大型語言模型(LLM)正面臨越來越多的“遺忘”需求,即刪除訓練資料、知識或行為,原因包括法規刪除義務、版權/許可爭議以及安全或產品政策要求。然而,一篇發表在ICML 2026立場論文軌道上的新論文認為,“機器遺忘”一詞在LLM研究中被過度使用,應僅限於一種特定情況:從模型中移除精確指定的訓練資料集的影響,使得得到的模型與從頭開始訓練而不包含該資料幾乎無法區分。該論文由Sangyeon Yoon和Yeachan Jun共同主導,共13頁,主題涵蓋計算與語言、人工智慧和機器學習。
論文指出,許多當前被標記為“遺忘”的任務,例如拒絕有害請求、刪除特定實體或知識、或目標抑制,實際上追求的是不同的、往往由政策驅動的目標。這些任務應該使用不同的術語和基線,如對齊、抑制、編輯或混淆。作者強調,這種混淆不僅僅是表面問題,因為不同的論文在同一標籤下隱含了不同的保證,導致指標和基準被重複使用到其預期範圍之外。例如,即使沒有測試再訓練等價性且衍生能力仍然存在,低ROUGE分數或遺忘準確率等表面上的非披露也會得到獎勵。這種計量謬誤會使得研究社群無法區分真正的資料刪除與簡單的行為調整。
論文最後呼籲採用更嚴格的術語,與明確的保證和參考模型掛鉤,並採用與聲稱的目標相匹配的評估方法。具體而言,作者建議任何聲稱實現“遺忘”的研究必須驗證模型與無該資料重新訓練的結果不可區分,而不是僅依賴表面指標。這一立場旨在澄清LLM領域關於“遺忘”的討論,並推動更精確的研究和實踐,從而確保監管合規、版權保護和模型安全性得到真正落實。