AI News HubLIVE
站內改寫2 分鐘閱讀

必要但不充分:溫度控制與LLM作為裁判的安全評估可重複性

本文挑戰了將LLM作為裁判的取樣溫度設定為0即可確保評估確定性的普遍假設。透過對日本AISI開原始碼庫的測試,研究發現預設溫度1.0導致邊界專案結果翻轉,即使在溫度=0時仍有1-2個邊界專案不可重複。建議將裁判分歧作為一等健康指標。

來源arXiv Machine Learning作者: Hiroki Tamba

LLM-as-judge(大語言模型作為裁判)元件已成為評估框架的標準組成部分,尤其是在安全評估中,透過/失敗判定可能直接影響部署決策。一個普遍且看似合理的假設是,將取樣溫度設為0即可使評估結果具有確定性。然而,日本AISI(人工智慧安全研究所)的研究人員透過對真實安全評估程式碼庫aisev的測試,揭示了這一假設的侷限性。該論文於2026年6月24日提交至arXiv,作者為Hiroki Tamba,共7頁幷包含2張表格。

研究發現,問題涉及兩個層面:首先,評估框架在呼叫裁判時未設定溫度或隨機種子,而底層API提供商會靜默地應用預設溫度1.0。這導致接近決策邊界的專案在相同輸入下結果反覆翻轉——在20次執行中,每個專案的分歧率高達約50%。換句話說,同一安全測試用例在不同執行時可能得出截然不同的結論,這對於依賴安全評估結果的部署決策來說是一個嚴重隱患。

其次,即使將溫度明確設定為0,翻轉現象也只是減少而非消除。在針對兩個提供商(包括Anthropic和另一個未具名提供商)、三個模型檔次(涵蓋不同規模和能力)以及五種取樣配置進行的690次API呼叫中,7個邊界專案中有1-2個即使在強制貪婪解碼(top_k=1)下仍然無法復現。這表明,即使採用最為確定性的解碼策略,LLM裁判的判決仍然存在不可忽略的隨機性。

值得關注的是,Claude Opus 4.7/4.8版本已完全棄用了溫度引數,使得主要的緩解措施對新一代模型不再適用。這一變化意味著,研究人員無法透過設定溫度=0來嘗試穩定新模型的行為,進一步凸顯了問題的緊迫性。這些發現揭示了一個結構性缺陷:僅報告單次執行結果的評估框架,若不提供方差或裁判分歧度量,可能會將噪聲誤報為安全屬性。研究人員強調,如果一個評估框架只彙報一次執行的結果,監管機構和開發者可能會被誤導,認為模型表現出穩定的安全性,而實際上結果可能只是偶然。

為此,研究人員釋出了包含690次呼叫、7種條件的復現測試套件,並建議評估框架將裁判分歧作為與分數同等重要的一等健康指標。這一工作對於依賴LLM判斷的系統(如自動內容稽核、模型行為評估等)具有重要的警示意義。具體而言,他們推薦評估框架不僅應報告平均分數,還應報告每個專案上的裁判分歧率,並在決策閾值附近特別標註不確定性。這種方法類似於在機器學習中報告置信區間,而不是僅靠點估計。總之,該研究打破了溫度=0即確定性的神話,併為設計更可靠的AI評估流程提供了實證基礎和具體建議。