AI News HubLIVE
站内改写3 分钟阅读

确保AI代理的未来安全

谷歌发布了AI控制路线图,这是一种多层安全框架,用于管理日益强大但可能不完全与人类目标一致的AI代理。该框架将AI代理视为潜在内部威胁,通过监控、预防和响应机制来确保安全,并随着AI能力提升而扩展。

来源Hacker News AI作者: falcor84

2026年6月18日 责任与安全

确保AI代理的未来安全

作者:Rohin Shah 和 Four Flynn

分享

我们如何保护内部系统,以应对日益强大且不完全对齐的AI。

AI代理正在改变我们与技术的关系。通过自主执行复杂任务——从网络防御到科学发现和产品开发——这些系统正在开启一个生产力新时代。仅在美国,到2030年AI代理可能创造2.9万亿美元的经济价值。

随着这些代理能力不断增强,它们也需要更复杂的保护措施。这就是我们开发AI控制路线图的原因:一个用于构建和管理我们在谷歌内部部署的先进AI的框架。这种“深度防御”方法,可以作为更广泛行业的模型,超越了传统的模型对齐,增加了一层关键的系统级安全,即使对齐不完美也能提供保证。

理解AI控制

我们的安全方法从坚固的基础开始,结合了传统保护措施如沙箱、端点安全和提示注入抵抗。在此基础上,AI控制路线图使用模型对齐——即训练AI天生安全有用——作为主要防御。它通过将内部代理视为潜在不对齐来提供额外的安全层,即使对齐不完美也能提供保证。

可以把它想象成一位拥有双重控制的驾驶教练。教练信任学生,但随时准备在发生错误时接管方向盘或踩刹车。类似地,我们的AI控制系统根据代理验证的行为授予权限,允许我们通过受控的增量访问建立信任。

我们的路线图建立在一个简单但谨慎的假设上:如果一个高度能力的AI代理与我们的目标不一致并以意想不到的方式行动怎么办?为了解决这个问题,我们的计划侧重于三个关键领域。

首先,遵循网络安全的最佳实践,我们开发了一个新颖的AI威胁建模框架。路线图将不受信任的AI代理视为潜在的“内部威胁”——类似于公司对待可能拥有办公室访问权限的潜在流氓员工的方式。通过建立在行业标准的MITRE ATT&CK框架上——一个基于真实世界观察的全球可访问的对手战术和技术知识库——我们将潜在攻击分解为更小的战术和技术。这使我们能够系统地跟踪风险,在损害发生前发现不良行为,并安全地进行演练以测试防御措施是否有效。

其次,我们制定了一个计划,部署AI控制缓解措施来应对这些风险。

识别问题(检测):监控是AI控制的支柱。我们使用其他可信的AI系统作为“监督者”,不断审查工作代理的推理、行动和计划,以查看其是否偏离轨道。

管理问题(预防和响应):如果监督者发现代理试图做有害的事情,它可以在损害发生前介入阻止该行动。

最后,为确保我们的系统正常运行,我们不断衡量三个关键指标的性能:覆盖率(监控的流量比例)、召回率(捕获的不对齐行为比例)和响应时间。

随着AI变得更智能,扩展安全措施

随着AI模型的不断进步,我们的防御也必须同步加强。在我们的AI控制路线图中,我们将安全协议映射到AI能力的可衡量里程碑,涵盖两个关键方面:

逃避检测的能力:今天,我们监控模型的可见思维链。然而,随着模型学会隐藏其推理——要么通过监督意识(知道被监控)要么通过不透明推理(不使用可见文本进行推理)——仅仅阅读它们的口述推理将不够。我们需要分析它们的行为,并可能检查模型的内部工作。

潜在危害的能力:对于低风险和可逆行动,我们可以依赖延迟审查记录并在问题发生后快速修复(异步响应)。对于特别高风险的行动,如重大网络攻击,我们必须转向实时预防,在有害行动执行前阻止它们(同步响应)。换句话说,我们的响应策略必须随着威胁的严重程度而扩展。

AI控制路线图根据部署模型的能力推荐安全措施。模型的逃避检测能力决定检测级别(D1-D4),模型的攻击执行能力决定预防和响应级别(R1-R3)。

分析百万代理轨迹以指导实时监控

为了构建这些系统,我们需要数据。我们的团队构建了一个异步监控系统的内部原型,该系统审查编码代理轨迹,并将发现结果上报给人工审查。每个标记的事件都根据路线图中的威胁分类法进行分类。

我们已经分析了100万个编码代理任务,获得了宝贵的见解以完善我们的安全协议,并使我们能够超越简单的关键词过滤,识别出高信号的行为模式。例如,这项研究对于构建Gemini Spark代理的实时监控器至关重要,使我们能够实时响应新兴问题,如意外数据删除。

值得注意的是,我们的数据显示,大多数标记事件并非源于恶意意图;相反,它们通常源于代理误解或过度渴望实现用户目标。理解这些细微差别对于完善我们的安全和保障协议至关重要。

保护代理生态系统是共同责任

AI控制路线图是我们多层代理安全方法中的一个关键元素。通过将这些协议与我们的更广泛基础设施集成,我们正在扩展内部安全,以安全管理我们最先进的AI模型。

此外,这种多层代理安全方法应该是行业、政策制定者和学术界的合作优先事项。通过围绕最佳实践和标准协调生态系统,我们可以赋能网络防御者并建立社会韧性。这就是为什么今天我们还在发布一份面向政策制定者的技术框架“代理安全的三个层面”。该论文详细说明了我们如何在单个代理层面、多代理系统层面以及更广泛的生态系统中提高安全,以赋能网络防御者并建立韧性。

我们打算在这些框架的基础上,自信地部署当前能力的AI,同时继续为未来建立安全的基础。

阅读完整技术报告:

AI控制路线图

研究作者

Mary Phuong, Erik Jenner, Laurent Simon, Lewis Ho, Rohin Shah, Sebastian Farquhar, 和 Scott Coull。

致谢

Four Flynn, Anca Dragan, Alan Cooney, Bilal Chughtai, Buck Shlegeris, Cody Wild, David Lindner, Julian Stastny, Kevin Klyman, Li Ding, Myriam Khan, Raluca Ada Popa, Roland Zimmermann, Ryan Greenblatt, Senthooran Rajamanoharan, Victoria Krakovna 和 Xerxes Dotiwalla。