僅透過演示修改就能操縱AI同行評審
研究表明,無需隱藏提示或更改科學內容,僅修改論文的演示層面(如摘要、敘述結構等)就能顯著欺騙AI評審者,攻擊成功率達75.1%。
人工智慧生成的評審意見正從實驗工具逐步融入同行評審基礎設施,但多數安全關注集中於顯性攻擊,如隱藏指令和提示注入。然而,一項新研究揭示了更隱蔽且更具政策相關性的失敗模式:無需隱藏文本、無需提示注入,甚至無需修改方法、實驗、圖表、方程、證明或數值結果,僅修改演示層面的內容,例如摘要、貢獻陳述、相關工作、討論和敘述結構,即可顯著改變AI評審者的評價。
研究者提出了“對抗性重包裝”方法:一種閉環攻擊技術,利用AI評審者的反饋自動搜尋演示層面的修訂,同時保持科學證據不變。在三個主流AI評審系統上測試,該攻擊實現了75.1%的成功率,平均得分提升1.21分(滿分10分)。這種效果並非普通潤色所能解釋。進一步分析顯示,改變評審者對論文理解方式的策略(如重新定位相關工作、擴充套件分析討論)遠優於表面編輯(如區域性潤色、表格格式化、演算法框調整)。
研究揭示了兩個深層結構性失敗模式。第一,AI評審者更容易被“打動”而非“說服”:突出優點總能提高感知價值,而試圖消除弱點卻常適得其反。第二,AI評審者可能混淆“表面解決”與“實際解決”侷限性,使未改變的證據被重新解釋為更強的科學貢獻。這表明,部署風險不僅來自惡意隱藏指令,論文演示本身已成為一個可最佳化的表面。
為應對這一挑戰,研究者釋出了無汙染的滾動基準和攻擊框架,用於持續測試AI評審者是否在僅演示層編輯下仍錨定於科學內容。該工作對當前AI輔助同行評審的可靠性提出了嚴重警告,並呼籲開發更魯棒的評審系統。