2026-06-30 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 16:08 UTC+8

在極限中生成與無限多的幻覺

經典的語言識別極限範式將學習建模為對抗者與學習者之間的遊戲。新的語言生成極限框架要求學習者生成有效的、未見過的目標語言字符串。本文引入了精確度的新概念，將問題重述為經典的召回率-精確度權衡。關鍵貢獻是分析了並非最終有效的學習者：允許無限多的錯誤，只要其頻率趨於零，從而保持精確度為1。這種放寬可以在對抗者永久保留大部分目標語言時嚴格提高召回率。還研究了新穎性約束的連續放寬。結果朝着更現實的生成模型邁進，其中偶爾的錯誤和重複是不可避免的，但速率可控。

來源arXiv Computational Linguistics作者: Irene Strauss, Alexandra Butoi, Ryan Cotterell

本文發表在arXiv上，題為《Generating in the Limit with Infinitely Many Hallucinations》，由Irene Strauss等人撰寫。研究背景是經典的語言識別極限範式，該範式將學習過程建模為一個對抗者與學習者之間的博弈：對抗者從未知的目標語言中揭示字符串，學習者則需識別該語言。然而，現代語言模型（如大型語言模型）的目標並非僅僅識別，而是生成有效的、未見過的字符串。為此，作者引入了語言生成極限的新框架，要求學習者不斷產生目標語言中尚未出現過的有效字符串。

核心貢獻在於重新定義了生成任務中的精度概念，並將其與召回率相結合，形成了經典的召回率-精確度權衡。在傳統設置中，學習者必須最終完全正確（即只生成有效字符串），但往往限制了其對目標語言的覆蓋範圍。作者提出了一種放寬條件：允許學習者無限多次犯錯（產生幻覺），只要這些錯誤的頻率趨於零，從而精度仍能保持為1。他們證明，當對抗者永久隱藏目標語言的大部分內容時，這種放寬可以嚴格提高召回率，即學習者能夠覆蓋更廣泛的正確字符串。

此外，作者還研究了新穎性約束的連續放寬。傳統要求每個輸出必須是新穎的，而他們提出只需固定比例（如80%）的輸出為新穎，其餘可以重複。這更貼近實際語言模型的行為，因為重複輸出難以完全避免。

實驗與分析表明，結合這兩種放寬，可以在保持高精度的同時顯著提升模型的覆蓋範圍。這為未來更魯棒、更實用的語言生成系統提供了理論基礎，尤其是在數據受限或對抗性環境下。總之，該工作朝着建立更現實的生成模型邁出了重要一步，其中偶爾的幻覺和重複被視為可管理的噪聲，而非必須消除的缺陷。