AI News HubLIVE
站內改寫2 分鐘閱讀

必要但不充分:温度控制與LLM作為裁判的安全評估可重複性

本文挑戰了將LLM作為裁判的採樣温度設置為0即可確保評估確定性的普遍假設。通過對日本AISI開源代碼庫的測試,研究發現默認温度1.0導致邊界項目結果翻轉,即使在温度=0時仍有1-2個邊界項目不可重複。建議將裁判分歧作為一等健康指標。

來源arXiv Machine Learning作者: Hiroki Tamba

LLM-as-judge(大語言模型作為裁判)組件已成為評估框架的標準組成部分,尤其是在安全評估中,通過/失敗判定可能直接影響部署決策。一個普遍且看似合理的假設是,將採樣温度設為0即可使評估結果具有確定性。然而,日本AISI(人工智能安全研究所)的研究人員通過對真實安全評估代碼庫aisev的測試,揭示了這一假設的侷限性。該論文於2026年6月24日提交至arXiv,作者為Hiroki Tamba,共7頁幷包含2張表格。

研究發現,問題涉及兩個層面:首先,評估框架在調用裁判時未設置温度或隨機種子,而底層API提供商會靜默地應用默認温度1.0。這導致接近決策邊界的項目在相同輸入下結果反覆翻轉——在20次運行中,每個項目的分歧率高達約50%。換句話説,同一安全測試用例在不同運行時可能得出截然不同的結論,這對於依賴安全評估結果的部署決策來説是一個嚴重隱患。

其次,即使將温度明確設置為0,翻轉現象也只是減少而非消除。在針對兩個提供商(包括Anthropic和另一個未具名提供商)、三個模型檔次(涵蓋不同規模和能力)以及五種採樣配置進行的690次API調用中,7個邊界項目中有1-2個即使在強制貪婪解碼(top_k=1)下仍然無法復現。這表明,即使採用最為確定性的解碼策略,LLM裁判的判決仍然存在不可忽略的隨機性。

值得關注的是,Claude Opus 4.7/4.8版本已完全棄用了温度參數,使得主要的緩解措施對新一代模型不再適用。這一變化意味着,研究人員無法通過設置温度=0來嘗試穩定新模型的行為,進一步凸顯了問題的緊迫性。這些發現揭示了一個結構性缺陷:僅報告單次運行結果的評估框架,若不提供方差或裁判分歧度量,可能會將噪聲誤報為安全屬性。研究人員強調,如果一個評估框架只彙報一次運行的結果,監管機構和開發者可能會被誤導,認為模型表現出穩定的安全性,而實際上結果可能只是偶然。

為此,研究人員發佈了包含690次調用、7種條件的復現測試套件,並建議評估框架將裁判分歧作為與分數同等重要的一等健康指標。這一工作對於依賴LLM判斷的系統(如自動內容審核、模型行為評估等)具有重要的警示意義。具體而言,他們推薦評估框架不僅應報告平均分數,還應報告每個項目上的裁判分歧率,並在決策閾值附近特別標註不確定性。這種方法類似於在機器學習中報告置信區間,而不是僅靠點估計。總之,該研究打破了温度=0即確定性的神話,併為設計更可靠的AI評估流程提供了實證基礎和具體建議。