2026-06-26 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-26 15:56 UTC+8

必要但不充分：温度控制与LLM作为裁判的安全评估可重复性

本文挑战了将LLM作为裁判的采样温度设置为0即可确保评估确定性的普遍假设。通过对日本AISI开源代码库的测试，研究发现默认温度1.0导致边界项目结果翻转，即使在温度=0时仍有1-2个边界项目不可重复。建议将裁判分歧作为一等健康指标。

来源arXiv Machine Learning作者: Hiroki Tamba

LLM-as-judge（大语言模型作为裁判）组件已成为评估框架的标准组成部分，尤其是在安全评估中，通过/失败判定可能直接影响部署决策。一个普遍且看似合理的假设是，将采样温度设为0即可使评估结果具有确定性。然而，日本AISI（人工智能安全研究所）的研究人员通过对真实安全评估代码库aisev的测试，揭示了这一假设的局限性。该论文于2026年6月24日提交至arXiv，作者为Hiroki Tamba，共7页并包含2张表格。

研究发现，问题涉及两个层面：首先，评估框架在调用裁判时未设置温度或随机种子，而底层API提供商会静默地应用默认温度1.0。这导致接近决策边界的项目在相同输入下结果反复翻转——在20次运行中，每个项目的分歧率高达约50%。换句话说，同一安全测试用例在不同运行时可能得出截然不同的结论，这对于依赖安全评估结果的部署决策来说是一个严重隐患。

其次，即使将温度明确设置为0，翻转现象也只是减少而非消除。在针对两个提供商（包括Anthropic和另一个未具名提供商）、三个模型档次（涵盖不同规模和能力）以及五种采样配置进行的690次API调用中，7个边界项目中有1-2个即使在强制贪婪解码（top_k=1）下仍然无法复现。这表明，即使采用最为确定性的解码策略，LLM裁判的判决仍然存在不可忽略的随机性。

值得关注的是，Claude Opus 4.7/4.8版本已完全弃用了温度参数，使得主要的缓解措施对新一代模型不再适用。这一变化意味着，研究人员无法通过设置温度=0来尝试稳定新模型的行为，进一步凸显了问题的紧迫性。这些发现揭示了一个结构性缺陷：仅报告单次运行结果的评估框架，若不提供方差或裁判分歧度量，可能会将噪声误报为安全属性。研究人员强调，如果一个评估框架只汇报一次运行的结果，监管机构和开发者可能会被误导，认为模型表现出稳定的安全性，而实际上结果可能只是偶然。

为此，研究人员发布了包含690次调用、7种条件的复现测试套件，并建议评估框架将裁判分歧作为与分数同等重要的一等健康指标。这一工作对于依赖LLM判断的系统（如自动内容审核、模型行为评估等）具有重要的警示意义。具体而言，他们推荐评估框架不仅应报告平均分数，还应报告每个项目上的裁判分歧率，并在决策阈值附近特别标注不确定性。这种方法类似于在机器学习中报告置信区间，而不是仅靠点估计。总之，该研究打破了温度=0即确定性的神话，并为设计更可靠的AI评估流程提供了实证基础和具体建议。