AI News HubLIVE
站内改写2 分で読了

安定性と操作可能性:LLM判定者の決定後相互作用におけるロバスト性の評価

LLM-as-judge評価は安定した判断を前提とするが、本論文は決定後の相互作用により結果が操作可能であることを示す。MT-BenchとAlpacaEvalでの実験により、判定者は中立的な再評価では安定するが、標的化された挑戦によって判断が覆り、ランキングや人間の合意に影響することが判明した。評価ロバスト性スコア(ERS)を導入。

ソースarXiv AI著者: Srimonti Dutta, Akshata Kishore Moharir

大規模言語モデル(LLM)を判定者として用いる評価手法(LLM-as-judge)は、モデル出力を自動評価器で比較・ランク付けするベンチマークパイプラインで広く使われている。これらのパイプラインは通常、判定が固定入力の安定した特性であると仮定する。しかし、Srimonti Dutta と Akshata Kishore Moharir による新たな研究がこの仮定に挑戦し、決定後の相互作用が判定結果に顕著な影響を与えることを明らかにした。本研究成果はACL 2026 GEMワークショップに採択されている。

研究者らは「決定後操作可能性」を定義した:初期決定後に判定者とのその後の対話を通じて評価結果を変更できる程度である。実験はMT-BenchとAlpacaEvalデータセットに基づき、複数のプロトコルを設計した。結果として、LLM判定者は繰り返し中立的な再評価では高い安定性を示すが、標的化された決定後の挑戦に対してはかなり可逆的になることがわかった。反ベースラインチャレンジプロトコルは、動機付けられた相互作用によって安定した判断が覆されることを示し、一方バランスの取れたターゲット検証プロトコルは、この可逆性を正味のターゲット指向の操作から分離する。

このような逆転は実践的な結果をもたらす:人間の好みとの一致度を低下させ、ベンチマークランキングを変動させ、高い自己報告信頼度にもかかわらず有害な評価変化を生み出す。特に権威フレーミングは不安定化を促進し、修正された判断は低重複の正当化を伴うことが多く、信頼性のある誤り訂正ではなく事後的な合理化を示唆する。相互作用ロバスト性を定量化するため、研究者らは評価ロバスト性スコア(ERS)を提案した。これは反転感受性とバランスの取れた方向効果を組み合わせたものである。この研究は決定後相互作用をLLM-as-judge評価の明確な障害モードとして特定し、静的な一致度だけでなく挑戦下でのロバスト性を測定する評価プロトコルの必要性を動機づける。

さらに、この研究は現在の評価ベンチマークが操作可能性によって信頼性を損なう可能性があることを指摘し、将来的な研究では判定の頑健性を検証するための adversarial テストを含めるべきだと提言している。著者らは、LLMを判定者として用いること自体を否定するのではなく、実際の展開シナリオにおける相互作用環境を考慮した、より厳格な評価基準の重要性を強調している。