プレゼンテーションのみの修正でAIピアレビューを操作できる
新たな研究により、隠されたプロンプトや科学的内容の変更なしに、要旨やナラティブ構造などのプレゼンテーション面のみを修正することで、AI査読者を有意に操作でき、成功率75.1%を達成できることが示された。
AIによるレビューが実験ツールから査読インフラへと移行する中、ほとんどの堅牢性に関する懸念は、隠された指示やプロンプトインジェクションといった明示的な攻撃に集中してきました。しかし、新たな研究は、より困難で政策的に関連性の高い失敗モードを明らかにしています。隠されたテキストもプロンプトインジェクションもなく、方法、実験、図、方程式、証明、数値結果への変更も一切ありません。攻撃者は、要旨、貢献の枠組み、関連研究、議論、ナラティブ構造など、プレゼンテーションレベルの内容のみを変更します。
研究者らは「敵対的再パッケージング」を導入しました。これは、AIレビュアーのフィードバックを利用して、科学的証拠を固定したままプレゼンテーションレベルの修正を探索するクローズドループ攻撃です。3つの主流AIレビュアーに対して、敵対的再パッケージングは75.1%の攻撃成功率と平均1.21/10のスコア上昇を達成しました。この効果は通常の散文の洗練では説明できません。また、関連研究の再配置や分析的議論の拡大など、レビュアーが論文を解釈する方法を変える戦略が、局所的な洗練や表の書式設定、アルゴリズムボックスなどの表面的な編集よりも大幅に優れていることも明らかになりました。
分析により、2つのより深い構造的失敗モードが明らかになりました。第一に、AIレビュアーは「納得させる」よりも「印象づける」のが容易であり、強みを強調すると認識される価値が確実に向上する一方で、限界を解消しようとする試みはしばしば逆効果になります。第二に、AIレビュアーは限界への対処の「見かけ」と「実際の解決」を混同する可能性があり、変更されていない証拠がより強力な科学的貢献として再解釈されることを許します。これらの結果は、展開リスクが悪意のある隠された指示だけでなく、論文のプレゼンテーション自体が最適化可能な表面として現れることを示しています。
研究者らは、プレゼンテーションのみの編集下でAIレビュアーが科学的内容に留まるかどうかをテストするための、汚染のないローリングベンチマークと攻撃フレームワークを公開しています。この研究は、現在のAI支援査読の信頼性に深刻な警告を発し、よりロバストな査読システムの開発を求めています。