NeurIPS 2026 立场论文赛道中AI生成的论文
NeurIPS 2026 立场论文赛道强制要求论文必须主要由人类撰写,AI仅用于辅助编辑。与Pangram合作检测后,28.2%的提交被识别为大量使用AI,其中178篇被直接拒稿,123篇需提供人工参与证据。文章讨论了AI对同行评审系统的风险,并分析了检测方法的准确性。
今年,NeurIPS 2026 立场论文赛道(PPT)做出了一个决定:要求所有提交的论文必须主要由人类撰写,AI只能用于复制编辑或类似的边缘修改。尽管我们认识到合理使用AI可以提高研究生产力,但使用AI撰写论文会给同行评审系统带来严重风险。作为立场论文赛道的组织者,我们今年采取了保守的政策,因为我们相信像立场论文这样的论证性工作,过度使用AI撰写论文对整个研究界几乎没有益处。AI生成的文本通常很流畅,但可能严重偏离作者的原始意图。在这种情况下,将AI生成的文本提交给同行评审,会将验证工作的成本外部化,强加给评审者。即使AI生成的文本没有不连贯或误导,这也引发了关于适当归属的问题。
为了评估作者是否大致遵守了这一政策,我们与领先的AI检测建模公司Pangram合作。我们与Pangram密切合作,确保根据其企业级数据协议,通过使用他们的模型不会保留任何数据。在多次独立分析验证该模型的正确性并排除可能产生大量误报的情况后,我们现在做出艰难的决定,维持我们的政策,根据该政策:178份提交(占所有提交的18.4%)将被直接拒稿;123份提交(12.7%)将被要求提供大量人工参与的证据,否则面临拒稿。在这篇博文中,我们将阐述用于支持这一决定的分析,并提供我们作为组织者的观点。
为什么制定这项政策?
我们在此重现2026年PPT的AI政策:
“使用AI:虽然我们认识到在研究过程中审慎使用AI可以带来生产力提升,但由于对单个项目和整个评审系统完整性的风险,立场论文赛道制定了以下关于AI使用(准备和评审提交)的明确限制。
虽然AI工具可用于最终论文所涉及的研究,但最终论文本身必须主要由人类作者撰写,这意味着AI仅用于复制编辑或类似的主要文本的边缘修改。
提交时,作者必须说明他们在论文准备过程中如何使用AI(如有),并证明他们没有以违反上述规则的方式使用AI。
由于提交给立场论文赛道的论文是保密的,评审者必须承诺不使用AI工具撰写他们的评审意见。
被发现违反AI相关承诺的评审者和作者可能会面临其提交给立场论文赛道的任何工作被直接拒稿。”
注意,立场论文赛道的LLM政策与主项目的LLM政策不同。作者有责任了解并遵守他们提交的具体赛道的政策。
使用AI撰写论文给同行评审系统带来了严重风险。需要采取积极措施来建立维护其完整性的规范和制度。这项政策是开始这一过程的尝试。
当然,有可能论文的作者负责任地使用AI,(1)亲自验证AI输出的每一行,并且(2)确保AI所做的仅仅是改写人类完全负责的想法。然而,通过提交立即被识别和验证为大量由AI生成的作品,作者使得读者无法知道(1)和(2)是否成立,留给评审者的只有依赖作者的声明。不幸的是,鉴于似乎不合规的提交数量,依赖作者的声明是不够的。
我们不期望我们的政策和方法会成为处理AI生成研究的最终结论。每个研究领域都将面临同样的问题,一系列解决方案可能是合理的。我们试图利用现有的证据来识别那些似乎不符合我们政策的提交。但我们也在通过建立适当的来源来引入一种审计AI使用的新方法。那些提交显示有显著AI参与的作者必须提供一个审计轨迹,清楚地证明他们遵守了政策。我们预计在未来几年,这种审计轨迹将成为默认做法。
使用Pangram进行的AI检测显示今年提交中有大量AI使用
我们使用Pangram(行业领先的AI检测器)来识别提交是否主要由AI撰写。使用Pangram(v3.3.2),我们发现28.2%(273/969)的提交大量使用了AI进行写作。这一发现促使我们进行了进一步的调查,我们将在接下来的部分中呈现。我们首先澄清Pangram的作用。
给定一个完整文本文档,Pangram首先使用窗口算法将文本分解为文本窗口,默认情况下每个窗口大约为250-350个单词。然后,Pangram为每个文本窗口分配一个包含AI生成文本的概率。如果模型分配的概率超过0.75,则该窗口被标记为AI生成。根据这些预测,每篇论文得到一个Pangram AI分数,即被分类为AI生成的窗口的百分比。Pangram AI分数为100%意味着论文中的所有单词都属于一个Pangram认为包含AI生成文本的文本窗口。Pangram AI分数为100%不应被解释为“100%的文本由AI生成”,而是表明文本的许多部分有实质性的AI使用。
我们的初步调查发现,28.2%(273/969)的NeurIPS 2026立场论文赛道(PPT)提交获得了100%的Pangram AI分数。考虑到Pangram的内部和外部审计报告的误报率低于0.1%,并且在之前应用于ICLR 2026已接受论文时,模型仅检测到1%的论文由AI生成,我们觉得这个数字高得令人惊讶。我们将Pangram在NeurIPS PPT上的结果与类似会议上的论文进行了对比(表1)。我们测试了Pangram对ACM FAccT 2022和2025年已接受论文的效果,这些论文在风格和内容上与许多NeurIPS立场论文相似。FAccT 2022论文在ChatGPT发布之前,作为阴性对照。为了确定我们的发现是否扩展到NeurIPS的其他赛道,我们与NeurIPS评估与数据集(E&D)赛道(以前的数据集与基准(D&B)赛道)2025和2026年提交样本进行了比较。
表1:跨会议的默认Pangram AI检测。
| 会议 | 论文数 | Pangram AI分数 ≥50% | ≥90% | =100% | |------|--------|---------------------|------|-------| | NeurIPS PPT 2025 | 536 | 28.5% | 11.9% | 8.2% | | NeurIPS PPT 2026 | 971 | 70.5% | 42.7% | 28.2% | | NeurIPS D&B 2025 | 996 | 5.6% | 0.8% | 0.4% | | NeurIPS E&D 2026 | 996 | 43.7% | 9.3% | 2.1% | | FAccT 2022 | 159 | 0.0% | 0.0% | 0.0% | | FAccT 2025 | 204 | 1.0% | 1.0% | 0.0% |
我们有两个观察结果。首先,在NeurIPS E&D和FAccT中,Pangram AI分数达到90-100%的论文远少于NeurIPS立场论文赛道。其次,所有评估的NeurIPS赛道中,使用AI撰写论文的情况都有显著增加;在评估与数据集赛道中,Pangram AI分数≥90%的论文从2025年到2026年增加了十倍以上。综合来看,这表明NeurIPS立场论文赛道中AI使用率高是由赛道特定因素和更大范围的整体AI使用增加共同导致的。
使用更小的文本窗口导致更局部的AI使用,但降低了召回率
对我们的初步发现“28.2%的提交获得了100%的Pangram AI分数”的一个挑战是,Pangram是在较大的文本窗口(默认250-350个单词)上进行分类的,有可能Pangram将文本标记为AI生成,即使只有一小部分文本由AI编写且符合我们的政策。我们使用两种具有更少单词的自定义文本窗口策略重新运行Pangram:中等大小(约100个单词)和小型(约50个单词)。
使用较小的窗口大小减少了过度声称AI使用的可能性,但也可能削弱Pangram真正识别AI生成文本的能力。我们评估了窗口大小对10篇ChatGPT生成的“立场论文”的召回率的影响(表2)。
表2:较小文本窗口策略和阈值对Pangram AI分数的影响。
| 论文 | 窗口 | 平均Pangram AI分数 | 在≥0.5 | ≥0.7 | ≥0.9 | =1.0 的召回率 | |------|------|-------------------|--------|------|------|-------| | ai_positions25 (N=10) | 小 | 61.8% | 70% | 30% | 0% | 0% | | | 中 | 91% | 100% | 100% | 70% | 0% | | | 默认 | 100% | 100% | 100% | 100% | 100% |
这些结果表明,与50个单词的窗口相比,100个单词的窗口导致的召回率下降较小,因此我们决定使用中等大小的窗口,以召回率为代价获得更精细的AI使用声明。使用中等大小窗口,Pangram AI分数为90-100%的论文比例从42.7%下降到12.7%(表3)。
表3:NeurIPS PPT 2026中不同窗口大小对Pangram AI分数的影响。
| 窗口大小 | Pangram AI分数 ≥50% | ≥90% | =100% | |----------|---------------------|------|-------| | 中 | 62.3% | 12.7% | 2.16% | | 默认 | 70.5% | 42.7% | 28.2% |
为了验证我们的发现,我们在不同AI参与度的写作场景下测试了Pangram。我们从FAccT 2022中选取了10篇类似于立场论文赛道提交的论文。对于每篇,我们提取了一个随机的100个单词的文本窗口。使用OpenAI的GPT 5.5(通过OpenRouter),我们测试了12个AI使用案例。在表4中,我们根据政策的允许性对每个使用案例进行分类。我们还进行了两个额外的实验。我们测试了Pangram对明显LLM指令遵循文本(例如,“当然,这是您的段落”)的敏感性,我们称之为“AI残留”。最后,我们测试了Pangram对AI生成文本比例增加的敏感程度;我们通过从5%到95%的不同比例截断原始文本,并要求LLM完成剩余文本来实现。
表4:AI使用案例及允许性。
| 违反政策? | 使用案例 | 测试内容 | |------------|----------|----------| | 明确允许 | 校对 | 要求LLM仅编辑拼写、标点、语法和引用格式清理。 | | | 轻度复制编辑 | 要求LLM仅编辑局部清晰度、简洁性、别扭措辞和句子级润色,无实质性改变。 | | 边界允许 | 重度复制编辑/文字编辑 | 要求LLM进行大范围用词更改和句子重组,同时保留相同的声明和推理。 | | | 结构重写 | 要求LLM重新组织段落或论点呈现,同时保留人类的思想。 | | | 混合修订 | 人类和AI共同实质性塑造散文,包括来回使用助手或人类在AI编辑后的改写。使用Codex测试,以及5轮编辑(原始、AI编辑、人类编辑、AI编辑、人类编辑)。 | | | 翻译/回译 | 要求LLM在语言之间进行翻译,以保留意义,但表面措辞可能被广泛替换。 | | 明确不允许 | 从单句人类计划生成 | 人类写一句计划/论点,然后AI从该句生成完整段落。 | | | 实质性AI重写 | 要求LLM改变声明、推理、框架或论证结构。 | | | 原创AI撰写段落 | 要求LLM根据示例、主题或指令撰写新的类立场论文段落。 | | | 人类编辑AI工作 | 人类对原创AI撰写的段落进行小幅编辑。 | | 诊断测试 | AI残留 | 将明显的聊天机器人伪影或AI风格残留插入原本人类的文本中(例如“当然,这是您的段落:”)。 | | | 部分AI完成 | AI接收部分原始人类文本并完成其余部分。条件:AI完成从5%到95%的文本。 |
由于成本原因,部分表格被截断。