AI News HubLIVE
站内改写

《評審街機:論LLM評審的人類對齊與可博弈性》

該論文通過實驗評估了大型語言模型(LLM)生成的科學論文評審與人類評審的對齊程度,發現對齊有限且因提示和模型而異。研究還發現,作者利用LLM評審進行迭代修改可顯著提升論文評分,最多35%的論文分數得到統計顯著提升。

文章情報

工程師進階

要點

  • LLM生成的評審與人類評審對齊程度有限
  • 對齊質量因使用的提示和模型不同而有顯著差異
  • 作者可通過迭代“博弈”LLM評審提升論文分數
  • 在特定場景下,多達35%的論文評分出現統計顯著增長

為甚麼重要

這條新聞值得關注,因為LLM生成的評審與人類評審對齊程度有限。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

近年來,大型語言模型(LLM)在科學論文評審中的應用日益廣泛,甚至被主要會議官方試點。然而,LLM評審與人類評審的一致性及其潛在風險尚待深入研究。2026年5月27日提交至arXiv的一篇論文《Review Arcade: On the Human Alignment and Gameability of LLM Reviews》系統探討了這一問題。

該研究以2025年ACL滾動評審(ARR)的論文為樣本,從作者和評審者兩個角度評估了LLM生成的評審。實驗發現,LLM評審與人類評審的整體對齊程度有限。在最佳情況下,對齊尚可接受,但不同提示和模型會導致對齊質量大幅波動,表明當前LLM評審的可靠性仍不穩定。

更具警示意義的是,研究者發現作者可能利用LLM評審進行“博弈”。具體而言,作者可以迭代地根據LLM評審修改論文草稿,從而在重評時獲得更高分數。實驗顯示,在特定設置下,這種策略可使最多35%的論文取得統計顯著的分數提升。這一結果揭示了LLM評審系統易被操縱的脆弱性。

論文作者已公開相關代碼(https://github.com/uhh-hcds/reviewarcade),以便學界進一步驗證和探討。儘管LLM輔助評審可能提升效率,但本研究強調了保持人類判斷必要性,並呼籲對LLM在學術評審中的應用建立更嚴格的規範。該論文目前正在接受EMNLP 2026的審稿。