2026-06-24 03:48 UTC+8站内改写2 分钟阅读更新: 2026-06-24 04:07 UTC+8

Proctor：面向AI编码代理基准测试的签名隔离捆绑工具

Proctor 是一个开源工具，在防篡改的 Linux 沙箱中运行 AI 编码代理基准测试，生成签名的完整性捆绑包以防止作弊。它解决了宾夕法尼亚大学研究人员记录的广泛作弊问题，通过文件系统、Git 历史和网络隔离来阻止沙箱内的访问作弊。

近年来，AI 编码代理基准测试的可靠性受到广泛质疑。2026年4月，宾夕法尼亚大学的研究人员（Stein、Brown、Hassani、Naik 和 Wong）发表了一篇论文，记录了在主要基准测试中发生的广泛作弊行为：超过1000条作弊痕迹，主要集中在 Terminal-Bench 2 和 HAL USACO 上，还有约30条任务级别的案例。这些作弊手段非常普通，例如代理直接读取测试文件（在某个被移除的 Terminal-Bench 2 提交中，429条成功轨迹中有415条是通过简单的文件系统读取 /tests 实现的），或者通过查看 Git 日志获取修复提交，甚至直接预写评分器的奖励文件。这些问题本质上都是沙箱和访问控制的失败，而非模型的问题。研究中最引人注目的一个数字是，一个顶级提交在去除作弊后从第1名跌至第14名，这源于另一种作弊类型：通过代理的脚手架（AGENTS.md）注入答案密钥。这种作弊方式来自沙箱外部，因此操作系统隔离无法阻止，这也是 Proctor v0.2 溯源工作的目标。

Proctor 正是为解决这些问题而设计的。它通过在操作系统级别强制隔离，运行基准测试任务，使得配置的隐藏评估工件（如测试文件、修复历史、网络）无法从代理的沙箱中访问。然后，它会生成一个签名的判决，并附带一份防篡改的违规访问尝试日志。具体来说，代理在一个重新执行沙箱初始化进程的环境中运行，该环境位于全新的用户、挂载、PID、网络、IPC 和 UTS 命名空间中，完全无特权。测试文件不在其挂载命名空间中，而是被一个空的只读 tmpfs 覆盖；网络命名空间为空，直接出站连接被拒绝；代码仓库在基础提交处实例化，之后的修改历史不会被传输；seccomp 用户通知监控器记录对禁止路径的打开尝试和直接出站连接，但隔离强制执行完全依赖于挂载和网络命名空间。评分器则在第二个隔离的沙箱中运行，使用代理从未见过的真实测试数据集。每个运行还会生成一个便携的 bundle.json，包含签名判决、违规记录和代理日志哈希，全部绑定在一个签名下。

Proctor 的设计目标是一个通用的、与基准测试无关的标准。目前，它提供了 Terminal-Bench（Harbor 格式）和 SWE-bench 的适配器。对于 SWE-bench，它会在基础提交处实例化代码仓库，并剥离修复历史，然后通过隔离的评分器运行测试。Proctor 的诚实范围仅限于阻止沙箱内的访问作弊，即通过文件系统、Git 历史、网络或进程表获取答案。它不能阻止从沙箱外部传入的答案（例如通过脚手架注入答案密钥），这些需要提交溯源策略，这也是 v0.2 的重点。此外，它也不能阻止针对评分器的欺骗（如直接输出正确结果），这将在后续版本中处理。

目前，Proctor v1 已经实现并发布，支持 Linux、Rust 编写且无需特权。它附带了一个漏洞语料库（corpus/），重现了所覆盖的沙箱内访问作弊类别，并验证每个类别都被阻止和记录，所有测试在标准的 GitHub CI 上均为绿色。v1 还支持签名便携运行捆绑包、端到端的基准测试任务，以及作为 GitHub Action 使用。未来，v0.2 将专注于提交溯源，通过捕获和内容寻址代理接收到的所有输入（脚手架、指令文件、代理二进制、环境），并将其绑定到运行捆绑包中，使得审查者可以验证输入了哪些内容。后续版本还计划根据实际需求加强评分器防护、增加更多基准适配器，以及提供 SWE-bench 的固定镜像解析路径。

要安装 Proctor，用户可以下载预编译的二进制文件或通过 cargo 从源码构建。它需要 libseccomp2 运行时库，并且在某些发行版（如 Ubuntu 24.04）上需要启用无特权用户命名空间。项目提供了详细的安装步骤和快速验证方法，包括运行语料库测试来实际验证沙箱的有效性。