2026-05-29 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

《評審街機：論LLM評審的人類對齊與可博弈性》

該論文通過實驗評估了大型語言模型（LLM）生成的科學論文評審與人類評審的對齊程度，發現對齊有限且因提示和模型而異。研究還發現，作者利用LLM評審進行迭代修改可顯著提升論文評分，最多35%的論文分數得到統計顯著提升。

來源arXiv AI作者: Hans Ole Hatzel, Sebastian Steindl, Jan Strich

近年來，大型語言模型（LLM）在科學論文評審中的應用日益廣泛，甚至被主要會議官方試點。然而，LLM評審與人類評審的一致性及其潛在風險尚待深入研究。2026年5月27日提交至arXiv的一篇論文《Review Arcade: On the Human Alignment and Gameability of LLM Reviews》系統探討了這一問題。

該研究以2025年ACL滾動評審（ARR）的論文為樣本，從作者和評審者兩個角度評估了LLM生成的評審。實驗發現，LLM評審與人類評審的整體對齊程度有限。在最佳情況下，對齊尚可接受，但不同提示和模型會導致對齊質量大幅波動，表明當前LLM評審的可靠性仍不穩定。

更具警示意義的是，研究者發現作者可能利用LLM評審進行“博弈”。具體而言，作者可以迭代地根據LLM評審修改論文草稿，從而在重評時獲得更高分數。實驗顯示，在特定設置下，這種策略可使最多35%的論文取得統計顯著的分數提升。這一結果揭示了LLM評審系統易被操縱的脆弱性。

論文作者已公開相關代碼（https://github.com/uhh-hcds/reviewarcade），以便學界進一步驗證和探討。儘管LLM輔助評審可能提升效率，但本研究強調了保持人類判斷必要性，並呼籲對LLM在學術評審中的應用建立更嚴格的規範。該論文目前正在接受EMNLP 2026的審稿。