2026-05-29 13:00 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

「レビューアーケード：LLMレビューの人間との整合性とゲーム可能性について」

本論文は、科学論文に対するLLM生成レビューと人間レビューの整合性を実証的に評価し、整合性は限定的であり、プロンプトやモデルによって大きく変動することを明らかにした。さらに、著者がLLMレビューに基づいて論文を反復修正することで、最大35%の論文で統計的に有意なスコア向上が得られる「ゲーム可能性」を示した。

ソースarXiv AI著者: Hans Ole Hatzel, Sebastian Steindl, Jan Strich

近年、大規模言語モデル（LLM）による科学論文のレビュー生成が注目を集め、主要な会議で公式に試験運用されるまでになっている。しかし、LLMレビューが人間のレビューとどの程度一致するか、また悪用のリスクはないのかといった問題は未解明である。2026年5月27日にarXivに投稿された論文「Review Arcade: On the Human Alignment and Gameability of LLM Reviews」は、この課題に取り組んだものである。

研究チームは、2025年のACLローリングレビュー（ARR）に投稿された論文を対象に、著者とレビュアーの両視点からLLMレビューを評価した。その結果、LLMレビューと人間レビューの間の整合性は限定的であり、最良の場合でも「合理的」なレベルにとどまることが判明した。さらに、使用するプロンプトやモデルによって整合性の程度が大きく変動することも明らかになった。

より深刻な問題として、著者がLLMレビューを「ゲーム」できる可能性が示された。具体的には、著者がLLMによるレビュー結果に基づいて論文を反復的に修正・再投稿することで、再レビュー時にスコアが向上するケースがある。実験では、特定の条件下で最大35%の論文に統計的に有意なスコア上昇が確認された。これは、LLMレビューシステムが操作に対して脆弱であることを示唆している。

著者らは研究の再現性を高めるため、実験に使用したコードを公開している（https://github.com/uhh-hcds/reviewarcade）。LLMによるレビュー支援は効率性の面で利点があるものの、本研究はその限界とリスクを浮き彫りにした。学術界は、LLMを審査プロセスに導入する際に、人間の判断を維持し、悪用を防ぐための厳格なガイドラインを策定する必要がある。本論文は現在EMNLP 2026で審査中である。