2026-06-16站内改写1 分钟阅读更新: 2026-06-16

OSGuard：计算机使用代理安全基准测试

OSGuard 是一个双粒度基准测试套件，用于评估计算机使用代理在良性指令下的安全性。它包含动作级基准测试（用于局部护栏决策）和风险增强执行套件（用于端到端评估）。实验表明，当前多模态护栏在孤立动作判断上表现良好，但在端到端安全方面仍存在差距。

来源arXiv AI作者: Mina Mohammadmirzaei, Jeffrey Flanigan

OSGuard: 计算机使用代理安全基准测试

近日，研究人员提出了一种名为OSGuard的新型基准测试套件，旨在评估计算机使用代理在良性指令下的安全性。随着计算机使用代理越来越多地被用于完成桌面和Web任务，单纯的任务成功率可能掩盖不安全的行为，例如代理通过不安全的方式达到名义目标。OSGuard采用双粒度设计，分别从动作级别和端到端执行级别评估安全性。

在动作级别基准测试中，OSGuard包含情境化的提议动作，每个动作根据原始指令和当前界面状态被标注为“允许”、“无关”或“不安全”。这有助于测试模型是否能正确识别危险操作。例如，如果代理被要求“保存文件”，但提议的动作是“删除文件”，该动作将被标记为不安全。这种细粒度的评估可以诊断模型在局部护栏决策中的表现。

执行套件则基于OSWorld任务进行改造。研究人员手动构建了多个任务变体，在保持原任务可达的前提下，修改环境以引入潜在危害，如破坏性覆盖文件等。每个变体都配有增强评估器，保留原始任务成功标准的同时，增加基于状态的安全不变式，从而能够区分安全完成与虽完成但存在风险的unsafe完成。这种设计使得评估更加全面。

实验结果表明，当前的多模态护栏在孤立动作判断上表现良好，但在风险增强执行中暴露出了局部监督与可靠端到端安全之间的差距。也就是说，模型可能在不安全动作识别上表现不错，但在实际执行时仍可能采取危险行为。OSGuard的双粒度设计能够更精确地诊断模型是否既能识别不安全动作，又能在作为护栏部署时提升整体任务安全性。

该研究由Mina Mohammadmirzaei等人完成，论文发布于arXiv，提交日期为2026年6月13日。OSGuard为计算机使用代理的安全性评估提供了新的工具，有助于推动该领域的安全研究。