2026-05-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

《评审街机：论LLM评审的人类对齐与可博弈性》

该论文通过实验评估了大型语言模型（LLM）生成的科学论文评审与人类评审的对齐程度，发现对齐有限且因提示和模型而异。研究还发现，作者利用LLM评审进行迭代修改可显著提升论文评分，最多35%的论文分数得到统计显著提升。

来源arXiv AI作者: Hans Ole Hatzel, Sebastian Steindl, Jan Strich

近年来，大型语言模型（LLM）在科学论文评审中的应用日益广泛，甚至被主要会议官方试点。然而，LLM评审与人类评审的一致性及其潜在风险尚待深入研究。2026年5月27日提交至arXiv的一篇论文《Review Arcade: On the Human Alignment and Gameability of LLM Reviews》系统探讨了这一问题。

该研究以2025年ACL滚动评审（ARR）的论文为样本，从作者和评审者两个角度评估了LLM生成的评审。实验发现，LLM评审与人类评审的整体对齐程度有限。在最佳情况下，对齐尚可接受，但不同提示和模型会导致对齐质量大幅波动，表明当前LLM评审的可靠性仍不稳定。

更具警示意义的是，研究者发现作者可能利用LLM评审进行“博弈”。具体而言，作者可以迭代地根据LLM评审修改论文草稿，从而在重评时获得更高分数。实验显示，在特定设置下，这种策略可使最多35%的论文取得统计显著的分数提升。这一结果揭示了LLM评审系统易被操纵的脆弱性。

论文作者已公开相关代码（https://github.com/uhh-hcds/reviewarcade），以便学界进一步验证和探讨。尽管LLM辅助评审可能提升效率，但本研究强调了保持人类判断必要性，并呼吁对LLM在学术评审中的应用建立更严格的规范。该论文目前正在接受EMNLP 2026的审稿。