2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

僅透過演示修改就能操縱AI同行評審

研究表明，無需隱藏提示或更改科學內容，僅修改論文的演示層面（如摘要、敘述結構等）就能顯著欺騙AI評審者，攻擊成功率達75.1%。

人工智慧生成的評審意見正從實驗工具逐步融入同行評審基礎設施，但多數安全關注集中於顯性攻擊，如隱藏指令和提示注入。然而，一項新研究揭示了更隱蔽且更具政策相關性的失敗模式：無需隱藏文本、無需提示注入，甚至無需修改方法、實驗、圖表、方程、證明或數值結果，僅修改演示層面的內容，例如摘要、貢獻陳述、相關工作、討論和敘述結構，即可顯著改變AI評審者的評價。

研究者提出了“對抗性重包裝”方法：一種閉環攻擊技術，利用AI評審者的反饋自動搜尋演示層面的修訂，同時保持科學證據不變。在三個主流AI評審系統上測試，該攻擊實現了75.1%的成功率，平均得分提升1.21分（滿分10分）。這種效果並非普通潤色所能解釋。進一步分析顯示，改變評審者對論文理解方式的策略（如重新定位相關工作、擴充套件分析討論）遠優於表面編輯（如區域性潤色、表格格式化、演算法框調整）。

研究揭示了兩個深層結構性失敗模式。第一，AI評審者更容易被“打動”而非“說服”：突出優點總能提高感知價值，而試圖消除弱點卻常適得其反。第二，AI評審者可能混淆“表面解決”與“實際解決”侷限性，使未改變的證據被重新解釋為更強的科學貢獻。這表明，部署風險不僅來自惡意隱藏指令，論文演示本身已成為一個可最佳化的表面。

為應對這一挑戰，研究者釋出了無汙染的滾動基準和攻擊框架，用於持續測試AI評審者是否在僅演示層編輯下仍錨定於科學內容。該工作對當前AI輔助同行評審的可靠性提出了嚴重警告，並呼籲開發更魯棒的評審系統。