2026-06-30 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 16:08 UTC+8

在极限中生成与无限多的幻觉

经典的语言识别极限范式将学习建模为对抗者与学习者之间的游戏。新的语言生成极限框架要求学习者生成有效的、未见过的目标语言字符串。本文引入了精确度的新概念，将问题重述为经典的召回率-精确度权衡。关键贡献是分析了并非最终有效的学习者：允许无限多的错误，只要其频率趋于零，从而保持精确度为1。这种放宽可以在对抗者永久保留大部分目标语言时严格提高召回率。还研究了新颖性约束的连续放宽。结果朝着更现实的生成模型迈进，其中偶尔的错误和重复是不可避免的，但速率可控。

来源arXiv Computational Linguistics作者: Irene Strauss, Alexandra Butoi, Ryan Cotterell

本文发表在arXiv上，题为《Generating in the Limit with Infinitely Many Hallucinations》，由Irene Strauss等人撰写。研究背景是经典的语言识别极限范式，该范式将学习过程建模为一个对抗者与学习者之间的博弈：对抗者从未知的目标语言中揭示字符串，学习者则需识别该语言。然而，现代语言模型（如大型语言模型）的目标并非仅仅识别，而是生成有效的、未见过的字符串。为此，作者引入了语言生成极限的新框架，要求学习者不断产生目标语言中尚未出现过的有效字符串。

核心贡献在于重新定义了生成任务中的精度概念，并将其与召回率相结合，形成了经典的召回率-精确度权衡。在传统设置中，学习者必须最终完全正确（即只生成有效字符串），但往往限制了其对目标语言的覆盖范围。作者提出了一种放宽条件：允许学习者无限多次犯错（产生幻觉），只要这些错误的频率趋于零，从而精度仍能保持为1。他们证明，当对抗者永久隐藏目标语言的大部分内容时，这种放宽可以严格提高召回率，即学习者能够覆盖更广泛的正确字符串。

此外，作者还研究了新颖性约束的连续放宽。传统要求每个输出必须是新颖的，而他们提出只需固定比例（如80%）的输出为新颖，其余可以重复。这更贴近实际语言模型的行为，因为重复输出难以完全避免。

实验与分析表明，结合这两种放宽，可以在保持高精度的同时显著提升模型的覆盖范围。这为未来更鲁棒、更实用的语言生成系统提供了理论基础，尤其是在数据受限或对抗性环境下。总之，该工作朝着建立更现实的生成模型迈出了重要一步，其中偶尔的幻觉和重复被视为可管理的噪声，而非必须消除的缺陷。