2026-06-15站内改写1 分钟阅读更新: 2026-06-15

仅通过演示修改就能操纵AI同行评审

研究表明，无需隐藏提示或更改科学内容，仅修改论文的演示层面（如摘要、叙述结构等）就能显著欺骗AI评审者，攻击成功率达75.1%。

人工智能生成的评审意见正从实验工具逐步融入同行评审基础设施，但多数安全关注集中于显性攻击，如隐藏指令和提示注入。然而，一项新研究揭示了更隐蔽且更具政策相关性的失败模式：无需隐藏文本、无需提示注入，甚至无需修改方法、实验、图表、方程、证明或数值结果，仅修改演示层面的内容，例如摘要、贡献陈述、相关工作、讨论和叙述结构，即可显著改变AI评审者的评价。

研究者提出了“对抗性重包装”方法：一种闭环攻击技术，利用AI评审者的反馈自动搜索演示层面的修订，同时保持科学证据不变。在三个主流AI评审系统上测试，该攻击实现了75.1%的成功率，平均得分提升1.21分（满分10分）。这种效果并非普通润色所能解释。进一步分析显示，改变评审者对论文理解方式的策略（如重新定位相关工作、扩展分析讨论）远优于表面编辑（如局部润色、表格格式化、算法框调整）。

研究揭示了两个深层结构性失败模式。第一，AI评审者更容易被“打动”而非“说服”：突出优点总能提高感知价值，而试图消除弱点却常适得其反。第二，AI评审者可能混淆“表面解决”与“实际解决”局限性，使未改变的证据被重新解释为更强的科学贡献。这表明，部署风险不仅来自恶意隐藏指令，论文演示本身已成为一个可优化的表面。

为应对这一挑战，研究者发布了无污染的滚动基准和攻击框架，用于持续测试AI评审者是否在仅演示层编辑下仍锚定于科学内容。该工作对当前AI辅助同行评审的可靠性提出了严重警告，并呼吁开发更鲁棒的评审系统。