《评审街机:论LLM评审的人类对齐与可博弈性》
该论文通过实验评估了大型语言模型(LLM)生成的科学论文评审与人类评审的对齐程度,发现对齐有限且因提示和模型而异。研究还发现,作者利用LLM评审进行迭代修改可显著提升论文评分,最多35%的论文分数得到统计显著提升。
文章情报
工程师进阶
要点
- LLM生成的评审与人类评审对齐程度有限
- 对齐质量因使用的提示和模型不同而有显著差异
- 作者可通过迭代“博弈”LLM评审提升论文分数
- 在特定场景下,多达35%的论文评分出现统计显著增长
为什么重要
这条新闻值得关注,因为LLM生成的评审与人类评审对齐程度有限。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
近年来,大型语言模型(LLM)在科学论文评审中的应用日益广泛,甚至被主要会议官方试点。然而,LLM评审与人类评审的一致性及其潜在风险尚待深入研究。2026年5月27日提交至arXiv的一篇论文《Review Arcade: On the Human Alignment and Gameability of LLM Reviews》系统探讨了这一问题。
该研究以2025年ACL滚动评审(ARR)的论文为样本,从作者和评审者两个角度评估了LLM生成的评审。实验发现,LLM评审与人类评审的整体对齐程度有限。在最佳情况下,对齐尚可接受,但不同提示和模型会导致对齐质量大幅波动,表明当前LLM评审的可靠性仍不稳定。
更具警示意义的是,研究者发现作者可能利用LLM评审进行“博弈”。具体而言,作者可以迭代地根据LLM评审修改论文草稿,从而在重评时获得更高分数。实验显示,在特定设置下,这种策略可使最多35%的论文取得统计显著的分数提升。这一结果揭示了LLM评审系统易被操纵的脆弱性。
论文作者已公开相关代码(https://github.com/uhh-hcds/reviewarcade),以便学界进一步验证和探讨。尽管LLM辅助评审可能提升效率,但本研究强调了保持人类判断必要性,并呼吁对LLM在学术评审中的应用建立更严格的规范。该论文目前正在接受EMNLP 2026的审稿。