2026-07-03 12:00 UTC+8站内改写2 分钟阅读更新: 2026-07-03 16:09 UTC+8

通过溯源分析保护LLM代理免受对齐偏差

本文提出一种基于溯源分析的框架，用于检测大型语言模型代理在调用工具时是否与用户意图对齐。研究者开发的ProvenanceGuard流水线在工具执行前分析三种类型的对齐偏差，在Agent-SafetyBench和WorkBench基准测试中，将错误率从42.9%降至1.8%和从32.1%降至17.3%，同时将对齐轨迹的干预负担从30.5%降至12.8%。

来源arXiv Computational Linguistics作者: Yining She, Yiliang Liang, Eunsuk Kang

随着大型语言模型（LLM）代理日益获得访问强大工具的能力，确保其行为与用户意图一致变得至关重要。当代理提出的工具调用偏离用户意图时，这种现象被称为“对齐偏差”，可能导致难以撤销的有害后果。例如，一个代理可能错误地执行一个删除文件的操作，或者访问未经授权的数据，这些行为一旦发生，修复成本极高。现有的运行时防护措施通常采用LLM作为评判标准的范式，即用另一个LLM来评估代理行为的对齐性。然而，这种方法缺乏系统化的推理框架，往往产生不一致或难以审计的判断，且容易受到自身偏见的影响。

受数据溯源分析的启发，本文提出了一种基于溯源的概念框架，将对齐偏差检测形式化为判断提议的工具调用是否由代理上下文中的可追溯证据所支持。具体而言，该框架要求代理在调用工具前，其内部状态和对话历史中必须存在明确的、可追溯的证据链，证明该调用是合理且符合用户意图的。研究者进一步提出了ProvenanceGuard，这是一个多阶段流水线，在所选工具执行之前分析代理行动的三种对齐偏差类型：上下文偏差（调用的依据是否来自当前上下文）、意图偏差（调用是否与用户明确或隐含的目标一致）、以及动作偏差（调用本身是否适当）。仅当这三种偏差均未检测到时，才允许执行工具。

研究者在两个不同的基准测试上评估了该方法：Agent-SafetyBench（专门设计用于测试代理安全性的基准）和WorkBench（更通用的工作流基准）。他们使用了10种不同的基础LLM作为代理的后台模型。实验结果表明，与LLM作为评判标准的基线相比，ProvenanceGuard在Agent-SafetyBench上将对齐偏差轨迹的错误率从42.9%降至1.8%，在WorkBench上从32.1%降至17.3%。同时，在任务成功轨迹上的干预负担（即不必要地阻止正确行为的比率）从30.5%降至12.8%，并且在已对齐的轨迹上未引入统计上显著的不必要干预。这些结果有力地证明了结构化的、基于溯源的推理可以为保护LLM代理免受对齐偏差提供有效且实用的基础。该工作为构建更安全、更可靠的AI代理系统提供了新的思路，尤其是在金融、医疗等高风险领域具有重要应用价值。