2026-06-26 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-26 15:56 UTC+8

必要但不充分：温度控制與LLM作為裁判的安全評估可重複性

本文挑戰了將LLM作為裁判的採樣温度設置為0即可確保評估確定性的普遍假設。通過對日本AISI開源代碼庫的測試，研究發現默認温度1.0導致邊界項目結果翻轉，即使在温度=0時仍有1-2個邊界項目不可重複。建議將裁判分歧作為一等健康指標。

來源arXiv Machine Learning作者: Hiroki Tamba

LLM-as-judge（大語言模型作為裁判）組件已成為評估框架的標準組成部分，尤其是在安全評估中，通過/失敗判定可能直接影響部署決策。一個普遍且看似合理的假設是，將採樣温度設為0即可使評估結果具有確定性。然而，日本AISI（人工智能安全研究所）的研究人員通過對真實安全評估代碼庫aisev的測試，揭示了這一假設的侷限性。該論文於2026年6月24日提交至arXiv，作者為Hiroki Tamba，共7頁幷包含2張表格。

研究發現，問題涉及兩個層面：首先，評估框架在調用裁判時未設置温度或隨機種子，而底層API提供商會靜默地應用默認温度1.0。這導致接近決策邊界的項目在相同輸入下結果反覆翻轉——在20次運行中，每個項目的分歧率高達約50%。換句話説，同一安全測試用例在不同運行時可能得出截然不同的結論，這對於依賴安全評估結果的部署決策來説是一個嚴重隱患。

其次，即使將温度明確設置為0，翻轉現象也只是減少而非消除。在針對兩個提供商（包括Anthropic和另一個未具名提供商）、三個模型檔次（涵蓋不同規模和能力）以及五種採樣配置進行的690次API調用中，7個邊界項目中有1-2個即使在強制貪婪解碼（top_k=1）下仍然無法復現。這表明，即使採用最為確定性的解碼策略，LLM裁判的判決仍然存在不可忽略的隨機性。

值得關注的是，Claude Opus 4.7/4.8版本已完全棄用了温度參數，使得主要的緩解措施對新一代模型不再適用。這一變化意味着，研究人員無法通過設置温度=0來嘗試穩定新模型的行為，進一步凸顯了問題的緊迫性。這些發現揭示了一個結構性缺陷：僅報告單次運行結果的評估框架，若不提供方差或裁判分歧度量，可能會將噪聲誤報為安全屬性。研究人員強調，如果一個評估框架只彙報一次運行的結果，監管機構和開發者可能會被誤導，認為模型表現出穩定的安全性，而實際上結果可能只是偶然。

為此，研究人員發佈了包含690次調用、7種條件的復現測試套件，並建議評估框架將裁判分歧作為與分數同等重要的一等健康指標。這一工作對於依賴LLM判斷的系統（如自動內容審核、模型行為評估等）具有重要的警示意義。具體而言，他們推薦評估框架不僅應報告平均分數，還應報告每個項目上的裁判分歧率，並在決策閾值附近特別標註不確定性。這種方法類似於在機器學習中報告置信區間，而不是僅靠點估計。總之，該研究打破了温度=0即確定性的神話，併為設計更可靠的AI評估流程提供了實證基礎和具體建議。