通過溯源分析保護LLM代理免受對齊偏差
本文提出一種基於溯源分析的框架,用於檢測大型語言模型代理在調用工具時是否與用户意圖對齊。研究者開發的ProvenanceGuard流水線在工具執行前分析三種類型的對齊偏差,在Agent-SafetyBench和WorkBench基準測試中,將錯誤率從42.9%降至1.8%和從32.1%降至17.3%,同時將對齊軌跡的干預負擔從30.5%降至12.8%。
隨着大型語言模型(LLM)代理日益獲得訪問強大工具的能力,確保其行為與用户意圖一致變得至關重要。當代理提出的工具調用偏離用户意圖時,這種現象被稱為“對齊偏差”,可能導致難以撤銷的有害後果。例如,一個代理可能錯誤地執行一個刪除文件的操作,或者訪問未經授權的數據,這些行為一旦發生,修復成本極高。現有的運行時防護措施通常採用LLM作為評判標準的範式,即用另一個LLM來評估代理行為的對齊性。然而,這種方法缺乏系統化的推理框架,往往產生不一致或難以審計的判斷,且容易受到自身偏見的影響。
受數據溯源分析的啓發,本文提出了一種基於溯源的概念框架,將對齊偏差檢測形式化為判斷提議的工具調用是否由代理上下文中的可追溯證據所支持。具體而言,該框架要求代理在調用工具前,其內部狀態和對話歷史中必須存在明確的、可追溯的證據鏈,證明該調用是合理且符合用户意圖的。研究者進一步提出了ProvenanceGuard,這是一個多階段流水線,在所選工具執行之前分析代理行動的三種對齊偏差類型:上下文偏差(調用的依據是否來自當前上下文)、意圖偏差(調用是否與用户明確或隱含的目標一致)、以及動作偏差(調用本身是否適當)。僅當這三種偏差均未檢測到時,才允許執行工具。
研究者在兩個不同的基準測試上評估了該方法:Agent-SafetyBench(專門設計用於測試代理安全性的基準)和WorkBench(更通用的工作流基準)。他們使用了10種不同的基礎LLM作為代理的後台模型。實驗結果表明,與LLM作為評判標準的基線相比,ProvenanceGuard在Agent-SafetyBench上將對齊偏差軌跡的錯誤率從42.9%降至1.8%,在WorkBench上從32.1%降至17.3%。同時,在任務成功軌跡上的干預負擔(即不必要地阻止正確行為的比率)從30.5%降至12.8%,並且在已對齊的軌跡上未引入統計上顯著的不必要干預。這些結果有力地證明了結構化的、基於溯源的推理可以為保護LLM代理免受對齊偏差提供有效且實用的基礎。該工作為構建更安全、更可靠的AI代理系統提供了新的思路,尤其是在金融、醫療等高風險領域具有重要應用價值。