2026-06-26 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-26 15:56 UTC+8

必要但不充分：溫度控制與LLM作為裁判的安全評估可重複性

本文挑戰了將LLM作為裁判的取樣溫度設定為0即可確保評估確定性的普遍假設。透過對日本AISI開原始碼庫的測試，研究發現預設溫度1.0導致邊界專案結果翻轉，即使在溫度=0時仍有1-2個邊界專案不可重複。建議將裁判分歧作為一等健康指標。

來源arXiv Machine Learning作者: Hiroki Tamba

LLM-as-judge（大語言模型作為裁判）元件已成為評估框架的標準組成部分，尤其是在安全評估中，透過/失敗判定可能直接影響部署決策。一個普遍且看似合理的假設是，將取樣溫度設為0即可使評估結果具有確定性。然而，日本AISI（人工智慧安全研究所）的研究人員透過對真實安全評估程式碼庫aisev的測試，揭示了這一假設的侷限性。該論文於2026年6月24日提交至arXiv，作者為Hiroki Tamba，共7頁幷包含2張表格。

研究發現，問題涉及兩個層面：首先，評估框架在呼叫裁判時未設定溫度或隨機種子，而底層API提供商會靜默地應用預設溫度1.0。這導致接近決策邊界的專案在相同輸入下結果反覆翻轉——在20次執行中，每個專案的分歧率高達約50%。換句話說，同一安全測試用例在不同執行時可能得出截然不同的結論，這對於依賴安全評估結果的部署決策來說是一個嚴重隱患。

其次，即使將溫度明確設定為0，翻轉現象也只是減少而非消除。在針對兩個提供商（包括Anthropic和另一個未具名提供商）、三個模型檔次（涵蓋不同規模和能力）以及五種取樣配置進行的690次API呼叫中，7個邊界專案中有1-2個即使在強制貪婪解碼（top_k=1）下仍然無法復現。這表明，即使採用最為確定性的解碼策略，LLM裁判的判決仍然存在不可忽略的隨機性。

值得關注的是，Claude Opus 4.7/4.8版本已完全棄用了溫度引數，使得主要的緩解措施對新一代模型不再適用。這一變化意味著，研究人員無法透過設定溫度=0來嘗試穩定新模型的行為，進一步凸顯了問題的緊迫性。這些發現揭示了一個結構性缺陷：僅報告單次執行結果的評估框架，若不提供方差或裁判分歧度量，可能會將噪聲誤報為安全屬性。研究人員強調，如果一個評估框架只彙報一次執行的結果，監管機構和開發者可能會被誤導，認為模型表現出穩定的安全性，而實際上結果可能只是偶然。

為此，研究人員釋出了包含690次呼叫、7種條件的復現測試套件，並建議評估框架將裁判分歧作為與分數同等重要的一等健康指標。這一工作對於依賴LLM判斷的系統（如自動內容稽核、模型行為評估等）具有重要的警示意義。具體而言，他們推薦評估框架不僅應報告平均分數，還應報告每個專案上的裁判分歧率，並在決策閾值附近特別標註不確定性。這種方法類似於在機器學習中報告置信區間，而不是僅靠點估計。總之，該研究打破了溫度=0即確定性的神話，併為設計更可靠的AI評估流程提供了實證基礎和具體建議。