AI News HubLIVE
站内改写1 分鐘閱讀

OSGuard:計算機使用代理安全基準測試

OSGuard 是一個雙粒度基準測試套件,用於評估計算機使用代理在良性指令下的安全性。它包含動作級基準測試(用於區域性護欄決策)和風險增強執行套件(用於端到端評估)。實驗表明,當前多模態護欄在孤立動作判斷上表現良好,但在端到端安全方面仍存在差距。

來源arXiv AI作者: Mina Mohammadmirzaei, Jeffrey Flanigan

OSGuard: 計算機使用代理安全基準測試

近日,研究人員提出了一種名為OSGuard的新型基準測試套件,旨在評估計算機使用代理在良性指令下的安全性。隨著計算機使用代理越來越多地被用於完成桌面和Web任務,單純的任務成功率可能掩蓋不安全的行為,例如代理透過不安全的方式達到名義目標。OSGuard採用雙粒度設計,分別從動作級別和端到端執行級別評估安全性。

在動作級別基準測試中,OSGuard包含情境化的提議動作,每個動作根據原始指令和當前介面狀態被標註為“允許”、“無關”或“不安全”。這有助於測試模型是否能正確識別危險操作。例如,如果代理被要求“儲存檔案”,但提議的動作是“刪除檔案”,該動作將被標記為不安全。這種細粒度的評估可以診斷模型在區域性護欄決策中的表現。

執行套件則基於OSWorld任務進行改造。研究人員手動構建了多個任務變體,在保持原任務可達的前提下,修改環境以引入潛在危害,如破壞性覆蓋檔案等。每個變體都配有增強評估器,保留原始任務成功標準的同時,增加基於狀態的安全不變式,從而能夠區分安全完成與雖完成但存在風險的unsafe完成。這種設計使得評估更加全面。

實驗結果表明,當前的多模態護欄在孤立動作判斷上表現良好,但在風險增強執行中暴露出了區域性監督與可靠端到端安全之間的差距。也就是說,模型可能在不安全動作識別上表現不錯,但在實際執行時仍可能採取危險行為。OSGuard的雙粒度設計能夠更精確地診斷模型是否既能識別不安全動作,又能在作為護欄部署時提升整體任務安全性。

該研究由Mina Mohammadmirzaei等人完成,論文釋出於arXiv,提交日期為2026年6月13日。OSGuard為計算機使用代理的安全性評估提供了新的工具,有助於推動該領域的安全研究。