NeurIPS 2026 立場論文賽道中AI生成的論文
NeurIPS 2026 立場論文賽道強制要求論文必須主要由人類撰寫,AI僅用於輔助編輯。與Pangram合作檢測後,28.2%的提交被識別為大量使用AI,其中178篇被直接拒稿,123篇需提供人工參與證據。文章討論了AI對同行評審系統的風險,並分析了檢測方法的準確性。
今年,NeurIPS 2026 立場論文賽道(PPT)做出了一個決定:要求所有提交的論文必須主要由人類撰寫,AI只能用於複製編輯或類似的邊緣修改。儘管我們認識到合理使用AI可以提高研究生產力,但使用AI撰寫論文會給同行評審系統帶來嚴重風險。作為立場論文賽道的組織者,我們今年採取了保守的政策,因為我們相信像立場論文這樣的論證性工作,過度使用AI撰寫論文對整個研究界幾乎沒有益處。AI生成的文本通常很流暢,但可能嚴重偏離作者的原始意圖。在這種情況下,將AI生成的文本提交給同行評審,會將驗證工作的成本外部化,強加給評審者。即使AI生成的文本沒有不連貫或誤導,這也引發了關於適當歸屬的問題。
為了評估作者是否大致遵守了這一政策,我們與領先的AI檢測建模公司Pangram合作。我們與Pangram密切合作,確保根據其企業級數據協議,通過使用他們的模型不會保留任何數據。在多次獨立分析驗證該模型的正確性並排除可能產生大量誤報的情況後,我們現在做出艱難的決定,維持我們的政策,根據該政策:178份提交(佔所有提交的18.4%)將被直接拒稿;123份提交(12.7%)將被要求提供大量人工參與的證據,否則面臨拒稿。在這篇博文中,我們將闡述用於支持這一決定的分析,並提供我們作為組織者的觀點。
為什麼制定這項政策?
我們在此重現2026年PPT的AI政策:
“使用AI:雖然我們認識到在研究過程中審慎使用AI可以帶來生產力提升,但由於對單個項目和整個評審系統完整性的風險,立場論文賽道制定了以下關於AI使用(準備和評審提交)的明確限制。
雖然AI工具可用於最終論文所涉及的研究,但最終論文本身必須主要由人類作者撰寫,這意味着AI僅用於複製編輯或類似的主要文本的邊緣修改。
提交時,作者必須説明他們在論文準備過程中如何使用AI(如有),並證明他們沒有以違反上述規則的方式使用AI。
由於提交給立場論文賽道的論文是保密的,評審者必須承諾不使用AI工具撰寫他們的評審意見。
被發現違反AI相關承諾的評審者和作者可能會面臨其提交給立場論文賽道的任何工作被直接拒稿。”
注意,立場論文賽道的LLM政策與主項目的LLM政策不同。作者有責任瞭解並遵守他們提交的具體賽道的政策。
使用AI撰寫論文給同行評審系統帶來了嚴重風險。需要採取積極措施來建立維護其完整性的規範和制度。這項政策是開始這一過程的嘗試。
當然,有可能論文的作者負責任地使用AI,(1)親自驗證AI輸出的每一行,並且(2)確保AI所做的僅僅是改寫人類完全負責的想法。然而,通過提交立即被識別和驗證為大量由AI生成的作品,作者使得讀者無法知道(1)和(2)是否成立,留給評審者的只有依賴作者的聲明。不幸的是,鑑於似乎不合規的提交數量,依賴作者的聲明是不夠的。
我們不期望我們的政策和方法會成為處理AI生成研究的最終結論。每個研究領域都將面臨同樣的問題,一系列解決方案可能是合理的。我們試圖利用現有的證據來識別那些似乎不符合我們政策的提交。但我們也在通過建立適當的來源來引入一種審計AI使用的新方法。那些提交顯示有顯著AI參與的作者必須提供一個審計軌跡,清楚地證明他們遵守了政策。我們預計在未來幾年,這種審計軌跡將成為默認做法。
使用Pangram進行的AI檢測顯示今年提交中有大量AI使用
我們使用Pangram(行業領先的AI檢測器)來識別提交是否主要由AI撰寫。使用Pangram(v3.3.2),我們發現28.2%(273/969)的提交大量使用了AI進行寫作。這一發現促使我們進行了進一步的調查,我們將在接下來的部分中呈現。我們首先澄清Pangram的作用。
給定一個完整文本文檔,Pangram首先使用窗口算法將文本分解為文本窗口,默認情況下每個窗口大約為250-350個單詞。然後,Pangram為每個文本窗口分配一個包含AI生成文本的概率。如果模型分配的概率超過0.75,則該窗口被標記為AI生成。根據這些預測,每篇論文得到一個Pangram AI分數,即被分類為AI生成的窗口的百分比。Pangram AI分數為100%意味着論文中的所有單詞都屬於一個Pangram認為包含AI生成文本的文本窗口。Pangram AI分數為100%不應被解釋為“100%的文本由AI生成”,而是表明文本的許多部分有實質性的AI使用。
我們的初步調查發現,28.2%(273/969)的NeurIPS 2026立場論文賽道(PPT)提交獲得了100%的Pangram AI分數。考慮到Pangram的內部和外部審計報告的誤報率低於0.1%,並且在之前應用於ICLR 2026已接受論文時,模型僅檢測到1%的論文由AI生成,我們覺得這個數字高得令人驚訝。我們將Pangram在NeurIPS PPT上的結果與類似會議上的論文進行了對比(表1)。我們測試了Pangram對ACM FAccT 2022和2025年已接受論文的效果,這些論文在風格和內容上與許多NeurIPS立場論文相似。FAccT 2022論文在ChatGPT發佈之前,作為陰性對照。為了確定我們的發現是否擴展到NeurIPS的其他賽道,我們與NeurIPS評估與數據集(E&D)賽道(以前的數據集與基準(D&B)賽道)2025和2026年提交樣本進行了比較。
表1:跨會議的默認Pangram AI檢測。
| 會議 | 論文數 | Pangram AI分數 ≥50% | ≥90% | =100% | |------|--------|---------------------|------|-------| | NeurIPS PPT 2025 | 536 | 28.5% | 11.9% | 8.2% | | NeurIPS PPT 2026 | 971 | 70.5% | 42.7% | 28.2% | | NeurIPS D&B 2025 | 996 | 5.6% | 0.8% | 0.4% | | NeurIPS E&D 2026 | 996 | 43.7% | 9.3% | 2.1% | | FAccT 2022 | 159 | 0.0% | 0.0% | 0.0% | | FAccT 2025 | 204 | 1.0% | 1.0% | 0.0% |
我們有兩個觀察結果。首先,在NeurIPS E&D和FAccT中,Pangram AI分數達到90-100%的論文遠少於NeurIPS立場論文賽道。其次,所有評估的NeurIPS賽道中,使用AI撰寫論文的情況都有顯著增加;在評估與數據集賽道中,Pangram AI分數≥90%的論文從2025年到2026年增加了十倍以上。綜合來看,這表明NeurIPS立場論文賽道中AI使用率高是由賽道特定因素和更大範圍的整體AI使用增加共同導致的。
使用更小的文本窗口導致更局部的AI使用,但降低了召回率
對我們的初步發現“28.2%的提交獲得了100%的Pangram AI分數”的一個挑戰是,Pangram是在較大的文本窗口(默認250-350個單詞)上進行分類的,有可能Pangram將文本標記為AI生成,即使只有一小部分文本由AI編寫且符合我們的政策。我們使用兩種具有更少單詞的自定義文本窗口策略重新運行Pangram:中等大小(約100個單詞)和小型(約50個單詞)。
使用較小的窗口大小減少了過度聲稱AI使用的可能性,但也可能削弱Pangram真正識別AI生成文本的能力。我們評估了窗口大小對10篇ChatGPT生成的“立場論文”的召回率的影響(表2)。
表2:較小文本窗口策略和閾值對Pangram AI分數的影響。
| 論文 | 窗口 | 平均Pangram AI分數 | 在≥0.5 | ≥0.7 | ≥0.9 | =1.0 的召回率 | |------|------|-------------------|--------|------|------|-------| | ai_positions25 (N=10) | 小 | 61.8% | 70% | 30% | 0% | 0% | | | 中 | 91% | 100% | 100% | 70% | 0% | | | 默認 | 100% | 100% | 100% | 100% | 100% |
這些結果表明,與50個單詞的窗口相比,100個單詞的窗口導致的召回率下降較小,因此我們決定使用中等大小的窗口,以召回率為代價獲得更精細的AI使用聲明。使用中等大小窗口,Pangram AI分數為90-100%的論文比例從42.7%下降到12.7%(表3)。
表3:NeurIPS PPT 2026中不同窗口大小對Pangram AI分數的影響。
| 窗口大小 | Pangram AI分數 ≥50% | ≥90% | =100% | |----------|---------------------|------|-------| | 中 | 62.3% | 12.7% | 2.16% | | 默認 | 70.5% | 42.7% | 28.2% |
為了驗證我們的發現,我們在不同AI參與度的寫作場景下測試了Pangram。我們從FAccT 2022中選取了10篇類似於立場論文賽道提交的論文。對於每篇,我們提取了一個隨機的100個單詞的文本窗口。使用OpenAI的GPT 5.5(通過OpenRouter),我們測試了12個AI使用案例。在表4中,我們根據政策的允許性對每個使用案例進行分類。我們還進行了兩個額外的實驗。我們測試了Pangram對明顯LLM指令遵循文本(例如,“當然,這是您的段落”)的敏感性,我們稱之為“AI殘留”。最後,我們測試了Pangram對AI生成文本比例增加的敏感程度;我們通過從5%到95%的不同比例截斷原始文本,並要求LLM完成剩餘文本來實現。
表4:AI使用案例及允許性。
| 違反政策? | 使用案例 | 測試內容 | |------------|----------|----------| | 明確允許 | 校對 | 要求LLM僅編輯拼寫、標點、語法和引用格式清理。 | | | 輕度複製編輯 | 要求LLM僅編輯局部清晰度、簡潔性、彆扭措辭和句子級潤色,無實質性改變。 | | 邊界允許 | 重度複製編輯/文字編輯 | 要求LLM進行大範圍用詞更改和句子重組,同時保留相同的聲明和推理。 | | | 結構重寫 | 要求LLM重新組織段落或論點呈現,同時保留人類的思想。 | | | 混合修訂 | 人類和AI共同實質性塑造散文,包括來回使用助手或人類在AI編輯後的改寫。使用Codex測試,以及5輪編輯(原始、AI編輯、人類編輯、AI編輯、人類編輯)。 | | | 翻譯/回譯 | 要求LLM在語言之間進行翻譯,以保留意義,但表面措辭可能被廣泛替換。 | | 明確不允許 | 從單句人類計劃生成 | 人類寫一句計劃/論點,然後AI從該句生成完整段落。 | | | 實質性AI重寫 | 要求LLM改變聲明、推理、框架或論證結構。 | | | 原創AI撰寫段落 | 要求LLM根據示例、主題或指令撰寫新的類立場論文段落。 | | | 人類編輯AI工作 | 人類對原創AI撰寫的段落進行小幅編輯。 | | 診斷測試 | AI殘留 | 將明顯的聊天機器人偽影或AI風格殘留插入原本人類的文本中(例如“當然,這是您的段落:”)。 | | | 部分AI完成 | AI接收部分原始人類文本並完成其餘部分。條件:AI完成從5%到95%的文本。 |
由於成本原因,部分表格被截斷。