NeurIPS 2026 ポジションペーパートラックにおけるAI生成論文
NeurIPS 2026 ポジションペーパートラックは、論文の大部分を人間が執筆し、AIはコピー編集のみに使用することを義務付ける方針を採用。Pangramとの連携により、提出物の28.2%がAIを多用していることが判明し、178件がデスクリジェクト、123件に証拠提出が求められた。本記事では、査読システムへのリスクと、検出方法の精度検証について論じる。
今年、NeurIPS 2026 ポジションペーパートラック(PPT)は、すべての論文の大部分を人間が執筆し、AIはコピー編集や類似の周辺的な修正にのみ使用することを要求する決定を下しました。AIの思慮深い使用が研究の生産性向上につながる可能性があることを認識しつつも、論文作成にAIを使用することは査読システムに深刻なリスクをもたらします。ポジションペーパートラックのチェアとして、我々は今年、保守的なアプローチを採用しました。というのも、ポジションペーパーのような議論的な作業において、提出論文にAIを過剰に使用することは研究コミュニティ全体にとってほとんど利益にならないと考えるからです。AI生成テキストはしばしば滑らかですが、著者の本来の意図から大きく逸脱する可能性があります。この場合、AI生成テキストを査読に提出することは、その作業を検証するコストを外部化し、レビュアーに課します。AI生成テキストがそれ自体で無意味または誤解を招くものでない場合でも、適切な帰属の問題が生じます。
著者がこの方針を概ね遵守しているかどうかを評価するために、我々は大手AI検出モデル企業であるPangramと提携しました。Pangramと緊密に連携し、エンタープライズレベルのデータ契約に基づき、モデルの使用を通じてデータが保持されないことを確認しました。このモデルの正確性を検証し、重大な誤検出が発生するシナリオを排除するための複数の独立した分析の後、我々は方針を維持するという困難な決定を下しました。それに基づき、178件の提出(全提出の18.4%)はデスクリジェクトされ、123件(12.7%)には実質的な人間の関与の証拠を提供するよう求められ、さもなければデスクリジェクトのリスクがあります。このブログ記事では、この決定を支える分析を説明し、主催者としての見解を述べます。
なぜこの方針か?
ここに2026年PPTのAI方針を再掲します:
「AIの使用:研究におけるAIの賢明な使用による生産性向上を認識しつつも、個々のプロジェクトおよび査読システム全体の完全性に対するリスクを考慮し、ポジションペーパートラックは、提出物の作成とレビューにおけるAI使用に関して以下の明確なガードレールを設けます。
AIツールは最終論文に至る研究で使用される可能性がありますが、最終論文自体は人間の著者によって実質的に執筆されなければならず、AIはコピー編集または類似の主要テキストの周辺的な変更にのみ使用されなければなりません。
提出時に、著者は論文の準備においてAIツールをどのように使用したか(使用した場合)を述べ、上記のルールに反する方法でAIを使用していないことを証明しなければなりません。
ポジションペーパートラックに提出された論文は機密であるため、レビュアーはレビューを書くためにAIツールを使用しないことを約束する必要があります。
AI使用に関する約束に違反したレビュアーおよび著者は、ポジションペーパートラックに提出されたいかなる作業もデスクリジェクトされる可能性があります。」
ポジションペーパートラックのLLM方針はメインプログラムのLLM方針とは異なることに注意してください。著者は、提出先の特定のトラックに関する方針を理解し、遵守する責任があります。
論文作成にAIを使用することは、査読システムに深刻なリスクをもたらします。その完全性を維持するための規範と制度を構築するには、積極的な措置が必要です。この方針は、そのプロセスを開始する試みです。
もちろん、論文の著者が責任を持ってAIを使用し、(1)AI出力のすべての行を個人的に検証し、(2)AIが人間が単独で責任を持つアイデアを言い換えるだけであることを確実にすることは可能です。しかし、すぐに認識可能で検証可能なAI生成の作業を提出することにより、著者は(1)と(2)が成立することを読者が知ることを不可能にし、レビュアーには著者の宣言に頼る以外の選択肢をほとんど残しません。残念ながら、不遵守と思われる提出の量を考えると、著者の宣言に頼るだけでは不十分です。
我々の方針とアプローチがAI生成研究への最終的な答えになるとは期待していません。すべての研究分野が同じ問題に直面し、さまざまな解決策が合理的であり得ます。我々は、利用可能な証拠を用いて、方針に準拠していないと思われる提出を特定しようと努めてきました。しかし、適切な来歴を確立することにより、AI使用を監査する新たなアプローチも導入しています。著者の提出が有意なAI関与を示す場合、方針を遵守したことを明確に示す監査証跡を提供しなければなりません。将来の年には、この種の監査証跡がデフォルトになると予想しています。
PangramによるAI検出が今年の提出における相当なAI使用を示唆
Pangram(業界をリードするAI検出器)を使用して、提出が主にAIによって書かれているかどうかを特定しました。Pangram(v3.3.2)を使用したところ、提出の28.2%(273/969)が執筆にAIを大幅に使用していることがわかりました。この発見はさらなる調査を促し、次のセクションで提示します。まずはPangramが何をするのかを明確にすることから始めます。
完全なテキスト文書が与えられると、Pangramはまずウィンドウイングアルゴリズムを使用してテキストをテキストウィンドウに分割します。デフォルトでは各ウィンドウは約250〜350ワードです。次に、Pangramは各テキストウィンドウにAI生成テキストを含む確率を割り当てます。モデルの割り当てた確率が0.75を超える場合、そのウィンドウはAI生成としてフラグが立てられます。これらの予測から、各論文はPangram AIスコア(AI生成として分類されたウィンドウの割合)を受け取ります。Pangram AIスコア100%は、論文内のすべての単語がPangramがAI生成テキストを含むと考えるテキストウィンドウに該当することを意味します。Pangram AIスコア100%は「テキストの100%がAI生成」と解釈されるべきではなく、むしろテキストの多くの部分に実質的なAI使用があることを示します。
予備調査の結果、NeurIPS 2026ポジションペーパートラック(PPT)への提出の28.2%(273/969)がPangram AIスコア100%を獲得したことがわかりました。Pangramの内部および外部監査では誤検出率が0.1%未満と報告されており、以前にICLR 2026の採択論文に適用した場合、モデルは論文の1%のみがAI生成と検出したため、この数字は驚くほど高いと感じました。Pangramの結果を類似の会議の論文と比較しました(表1)。PangramをACM FAccT 2022および2025の採択論文に対してテストしました。これらはスタイルと内容が多くのNeurIPSポジションペーパーと似ています。FAccT 2022論文はChatGPTのリリース前にあり、ネガティブコントロールとして機能しました。調査結果が他のNeurIPSトラックにも拡張されるかどうかを判断するため、NeurIPS評価・データセットトラック(E&D)(以前のデータセット・ベンチマーク(D&B))の2025年および2026年の提出サンプルと比較しました。
表1:会議間のデフォルトのPangram AI検出。
| 会議 | 論文数 | Pangram AIスコア ≥50% | ≥90% | =100% | |------|--------|---------------------|------|-------| | NeurIPS PPT 2025 | 536 | 28.5% | 11.9% | 8.2% | | NeurIPS PPT 2026 | 971 | 70.5% | 42.7% | 28.2% | | NeurIPS D&B 2025 | 996 | 5.6% | 0.8% | 0.4% | | NeurIPS E&D 2026 | 996 | 43.7% | 9.3% | 2.1% | | FAccT 2022 | 159 | 0.0% | 0.0% | 0.0% | | FAccT 2025 | 204 | 1.0% | 1.0% | 0.0% |
2つの観察結果が得られました。第一に、NeurIPS E&DおよびFAccTでは、NeurIPSポジションペーパートラックと比較して、Pangram AIスコアが90〜100%の論文がはるかに少ないことです。第二に、評価された両方のNeurIPSトラックで論文執筆へのAI使用が急増しており、評価・データセットトラックでは、Pangram AIスコアが90%以上の論文が2025年から2026年にかけて10倍以上増加しています。総合すると、NeurIPSポジションペーパートラックでの高いAI使用率は、トラック固有の要因と、全体的なAI使用の大幅な増加の両方によって引き起こされていることが示唆されます。
より小さなテキストウィンドウの使用はより局所的なAI使用をもたらすが、再現率を犠牲にする
「提出の28.2%がPangram AIスコア100%」という予備的発見に対する課題の1つは、Pangramが大きなテキストウィンドウ(デフォルトでは250〜350ワード)で分類するため、PangramがテキストをAI生成としてフラグを立てる可能性があることです。たとえテキストのごく一部だけがAIによって書かれており、方針に準拠している場合でもです。我々は、厳密にワード数が少ない2つのカスタムテキストウィンドウ戦略を使用してPangramを再実行しました:中程度(約100ワード)と小規模(約50ワード)です。
より小さなウィンドウサイズを使用すると、AI使用を過剰に主張する可能性は低下しますが、Pangramが真にAI生成テキストを識別する能力も低下する可能性があります。ウィンドウサイズが10個のChatGPT生成「ポジションペーパー」における再現率に与える影響を評価しました(表2)。
表2:より小さなテキストウィンドウ戦略と閾値がPangram AIスコアに与える影響。
| 論文 | ウィンドウ | 平均Pangram AIスコア | ≥0.5 | ≥0.7 | ≥0.9 | =1.0 での再現率 | |------|------------|---------------------|------|------|------|-------| | ai_positions25 (N=10) | 小 | 61.8% | 70% | 30% | 0% | 0% | | | 中 | 91% | 100% | 100% | 70% | 0% | | | デフォルト | 100% | 100% | 100% | 100% | 100% |
これらの結果は、100ワードのウィンドウが50ワードのウィンドウに比べて再現率の低下が少ないことを示唆しており、したがって、より細かいAI使用の主張と引き換えに再現率を犠牲にして、中程度のウィンドウを採用することにしました。中程度のウィンドウを使用すると、Pangram AIスコアが90〜100%の論文の割合は42.7%から12.7%に減少しました(表3)。
表3:NeurIPS PPT 2026におけるウィンドウサイズの変更がPangram AIスコアに与える影響。
| ウィンドウサイズ | Pangram AIスコア ≥50% | ≥90% | =100% | |----------------|---------------------|------|-------| | 中 | 62.3% | 12.7% | 2.16% | | デフォルト | 70.5% | 42.7% | 28.2% |
調査結果を裏付けるため、さまざまなAI関与度の執筆シナリオでPangramをテストしました。ポジションペーパートラックの提出に類似したFAccT 2022から10論文を選択しました。各論文からランダムな100ワードのテキストウィンドウを抽出しました。OpenAIのGPT 5.5(OpenRouter経由)を使用して、12のAI使用ケースをテストしました。表4では、各使用ケースを方針に対する許容性によって分類しています。さらに2つの実験を行いました。Pangramの明らかなLLM指示追従テキスト(例:「もちろん、こちらがあなたの段落です」)に対する感度をテストしました。これを「AI残留」と呼びます。最後に、PangramがAI生成テキストの割合の増加にどの程度敏感かをテストしました。元のテキストを5%から95%まで異なる量で切り詰め、LLMに残りのテキストを完成させるよう依頼しました。
表4:AI使用ケースと許容性。
| 方針違反? | 使用ケース | テスト内容 | |------------|------------|------------| | 明らかに許容 | 校正 | LLMにスペル、句読点、文法、引用形式のクリーンアップのみを編集するよう要求。 | | | 軽いコピー編集 | LLMに局所的な明確さ、簡潔さ、ぎこちない表現、文レベルの磨きのみを編集するよう要求。実質的な変更なし。 | | 境界線上の許容 | 重いコピー編集/ライン編集 | LLMに大きな語句の変更と文の再構築を要求。ただし同じ主張と推論を保持。 | | | 構造的な書き直し | LLMに段落や議論の提示を再編成するよう要求。ただし人間のアイデアを保持。 | | | ハイブリッド改訂 | 人間とAIが両方とも散文を実質的に形成。アシスタントの往復使用やAI編集後の人間による言い換えを含む。Codexでテスト、5回の編集ターン(オリジナル、AI編集、人間編集、AI編集、人間編集)。 | | | 翻訳/逆翻訳 | LLMに言語間の翻訳を要求。意味は保持されるが、表面の語句は大幅に置き換えられる可能性あり。 | | 明らかに許容されない | 単文の人間計画からの生成 | 人間が一文の計画/テーゼを書き、AIがそこから全文を生成。 | | | 実質的なAI書き直し | LLMに主張、推論、枠組み、議論構造の変更を要求。 | | | オリジナルのAI作成段落 | LLMに例、トピック、指示から新しいポジションペーパー風の段落を書くよう要求。 | | | 人間がAI作品を編集 | 人間がオリジナルのAI作成段落に軽微な編集を加える。 | | 診断テスト | AI残留 | 明らかなチャットボットのアーティファクトやAIスタイルの残留を人間のテキストに挿入(例:「もちろん、こちらがあなたの段落です:」)。 | | | 部分的なAI完成 | AIが元の人間のテキストの一部を受け取り、残りを完成。条件:AIが5%から95%のテキストを完成。 |
コスト管理のため、一部の表は省略されています。