AI News HubLIVE
站内改写1 分钟阅读

仅通过演示修改就能操纵AI同行评审

研究表明,无需隐藏提示或更改科学内容,仅修改论文的演示层面(如摘要、叙述结构等)就能显著欺骗AI评审者,攻击成功率达75.1%。

来源Hacker News AI作者: ilreb

人工智能生成的评审意见正从实验工具逐步融入同行评审基础设施,但多数安全关注集中于显性攻击,如隐藏指令和提示注入。然而,一项新研究揭示了更隐蔽且更具政策相关性的失败模式:无需隐藏文本、无需提示注入,甚至无需修改方法、实验、图表、方程、证明或数值结果,仅修改演示层面的内容,例如摘要、贡献陈述、相关工作、讨论和叙述结构,即可显著改变AI评审者的评价。

研究者提出了“对抗性重包装”方法:一种闭环攻击技术,利用AI评审者的反馈自动搜索演示层面的修订,同时保持科学证据不变。在三个主流AI评审系统上测试,该攻击实现了75.1%的成功率,平均得分提升1.21分(满分10分)。这种效果并非普通润色所能解释。进一步分析显示,改变评审者对论文理解方式的策略(如重新定位相关工作、扩展分析讨论)远优于表面编辑(如局部润色、表格格式化、算法框调整)。

研究揭示了两个深层结构性失败模式。第一,AI评审者更容易被“打动”而非“说服”:突出优点总能提高感知价值,而试图消除弱点却常适得其反。第二,AI评审者可能混淆“表面解决”与“实际解决”局限性,使未改变的证据被重新解释为更强的科学贡献。这表明,部署风险不仅来自恶意隐藏指令,论文演示本身已成为一个可优化的表面。

为应对这一挑战,研究者发布了无污染的滚动基准和攻击框架,用于持续测试AI评审者是否在仅演示层编辑下仍锚定于科学内容。该工作对当前AI辅助同行评审的可靠性提出了严重警告,并呼吁开发更鲁棒的评审系统。

仅通过演示修改就能操纵AI同行评审 | AI News Hub