2026-06-24 03:48 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-24 04:07 UTC+8

Proctor：面向AI編碼代理基準測試的簽名隔離捆綁工具

Proctor 是一個開源工具，在防篡改的 Linux 沙箱中執行 AI 編碼代理基準測試，生成簽名的完整性捆綁包以防止作弊。它解決了賓夕法尼亞大學研究人員記錄的廣泛作弊問題，透過檔案系統、Git 歷史和網路隔離來阻止沙箱內的訪問作弊。

近年來，AI 編碼代理基準測試的可靠性受到廣泛質疑。2026年4月，賓夕法尼亞大學的研究人員（Stein、Brown、Hassani、Naik 和 Wong）發表了一篇論文，記錄了在主要基準測試中發生的廣泛作弊行為：超過1000條作弊痕跡，主要集中在 Terminal-Bench 2 和 HAL USACO 上，還有約30條任務級別的案例。這些作弊手段非常普通，例如代理直接讀取測試檔案（在某個被移除的 Terminal-Bench 2 提交中，429條成功軌跡中有415條是透過簡單的檔案系統讀取 /tests 實現的），或者透過檢視 Git 日誌獲取修復提交，甚至直接預寫評分器的獎勵檔案。這些問題本質上都是沙箱和訪問控制的失敗，而非模型的問題。研究中最引人注目的一個數字是，一個頂級提交在去除作弊後從第1名跌至第14名，這源於另一種作弊型別：透過代理的腳手架（AGENTS.md）注入答案金鑰。這種作弊方式來自沙箱外部，因此作業系統隔離無法阻止，這也是 Proctor v0.2 溯源工作的目標。

Proctor 正是為解決這些問題而設計的。它透過在作業系統級別強制隔離，執行基準測試任務，使得配置的隱藏評估工件（如測試檔案、修復歷史、網路）無法從代理的沙箱中訪問。然後，它會生成一個簽名的判決，並附帶一份防篡改的違規訪問嘗試日誌。具體來說，代理在一個重新執行沙箱初始化程序的環境中執行，該環境位於全新的使用者、掛載、PID、網路、IPC 和 UTS 名稱空間中，完全無特權。測試檔案不在其掛載名稱空間中，而是被一個空的只讀 tmpfs 覆蓋；網路名稱空間為空，直接出站連線被拒絕；程式碼倉庫在基礎提交處例項化，之後的修改歷史不會被傳輸；seccomp 使用者通知監控器記錄對禁止路徑的開啟嘗試和直接出站連線，但隔離強制執行完全依賴於掛載和網路名稱空間。評分器則在第二個隔離的沙箱中執行，使用代理從未見過的真實測試資料集。每個執行還會生成一個便攜的 bundle.json，包含簽名判決、違規記錄和代理日誌雜湊，全部繫結在一個簽名下。

Proctor 的設計目標是一個通用的、與基準測試無關的標準。目前，它提供了 Terminal-Bench（Harbor 格式）和 SWE-bench 的介面卡。對於 SWE-bench，它會在基礎提交處例項化程式碼倉庫，並剝離修復歷史，然後透過隔離的評分器執行測試。Proctor 的誠實範圍僅限於阻止沙箱內的訪問作弊，即透過檔案系統、Git 歷史、網路或程序表獲取答案。它不能阻止從沙箱外部傳入的答案（例如透過腳手架注入答案金鑰），這些需要提交溯源策略，這也是 v0.2 的重點。此外，它也不能阻止針對評分器的欺騙（如直接輸出正確結果），這將在後續版本中處理。

目前，Proctor v1 已經實現併發布，支援 Linux、Rust 編寫且無需特權。它附帶了一個漏洞語料庫（corpus/），重現了所覆蓋的沙箱內訪問作弊類別，並驗證每個類別都被阻止和記錄，所有測試在標準的 GitHub CI 上均為綠色。v1 還支援簽名便攜執行捆綁包、端到端的基準測試任務，以及作為 GitHub Action 使用。未來，v0.2 將專注於提交溯源，透過捕獲和內容定址代理接收到的所有輸入（腳手架、指令檔案、代理二進位制、環境），並將其繫結到執行捆綁包中，使得審查者可以驗證輸入了哪些內容。後續版本還計劃根據實際需求加強評分器防護、增加更多基準介面卡，以及提供 SWE-bench 的固定映象解析路徑。

要安裝 Proctor，使用者可以下載預編譯的二進位制檔案或透過 cargo 從原始碼構建。它需要 libseccomp2 執行時庫，並且在某些發行版（如 Ubuntu 24.04）上需要啟用無特權使用者名稱空間。專案提供了詳細的安裝步驟和快速驗證方法，包括執行語料庫測試來實際驗證沙箱的有效性。