確保AI代理的未來安全
谷歌發佈了AI控制路線圖,這是一種多層安全框架,用於管理日益強大但可能不完全與人類目標一致的AI代理。該框架將AI代理視為潛在內部威脅,通過監控、預防和響應機制來確保安全,並隨着AI能力提升而擴展。
2026年6月18日 責任與安全
確保AI代理的未來安全
作者:Rohin Shah 和 Four Flynn
分享
我們如何保護內部系統,以應對日益強大且不完全對齊的AI。
AI代理正在改變我們與技術的關係。通過自主執行復雜任務——從網絡防禦到科學發現和產品開發——這些系統正在開啓一個生產力新時代。僅在美國,到2030年AI代理可能創造2.9萬億美元的經濟價值。
隨着這些代理能力不斷增強,它們也需要更復雜的保護措施。這就是我們開發AI控制路線圖的原因:一個用於構建和管理我們在谷歌內部部署的先進AI的框架。這種“深度防禦”方法,可以作為更廣泛行業的模型,超越了傳統的模型對齊,增加了一層關鍵的系統級安全,即使對齊不完美也能提供保證。
理解AI控制
我們的安全方法從堅固的基礎開始,結合了傳統保護措施如沙箱、端點安全和提示注入抵抗。在此基礎上,AI控制路線圖使用模型對齊——即訓練AI天生安全有用——作為主要防禦。它通過將內部代理視為潛在不對齊來提供額外的安全層,即使對齊不完美也能提供保證。
可以把它想象成一位擁有雙重控制的駕駛教練。教練信任學生,但隨時準備在發生錯誤時接管方向盤或踩剎車。類似地,我們的AI控制系統根據代理驗證的行為授予權限,允許我們通過受控的增量訪問建立信任。
我們的路線圖建立在一個簡單但謹慎的假設上:如果一個高度能力的AI代理與我們的目標不一致並以意想不到的方式行動怎麼辦?為了解決這個問題,我們的計劃側重於三個關鍵領域。
首先,遵循網絡安全的最佳實踐,我們開發了一個新穎的AI威脅建模框架。路線圖將不受信任的AI代理視為潛在的“內部威脅”——類似於公司對待可能擁有辦公室訪問權限的潛在流氓員工的方式。通過建立在行業標準的MITRE ATT&CK框架上——一個基於真實世界觀察的全球可訪問的對手戰術和技術知識庫——我們將潛在攻擊分解為更小的戰術和技術。這使我們能夠系統地跟蹤風險,在損害發生前發現不良行為,並安全地進行演練以測試防禦措施是否有效。
其次,我們制定了一個計劃,部署AI控制緩解措施來應對這些風險。
識別問題(檢測):監控是AI控制的支柱。我們使用其他可信的AI系統作為“監督者”,不斷審查工作代理的推理、行動和計劃,以查看其是否偏離軌道。
管理問題(預防和響應):如果監督者發現代理試圖做有害的事情,它可以在損害發生前介入阻止該行動。
最後,為確保我們的系統正常運行,我們不斷衡量三個關鍵指標的性能:覆蓋率(監控的流量比例)、召回率(捕獲的不對齊行為比例)和響應時間。
隨着AI變得更智能,擴展安全措施
隨着AI模型的不斷進步,我們的防禦也必須同步加強。在我們的AI控制路線圖中,我們將安全協議映射到AI能力的可衡量里程碑,涵蓋兩個關鍵方面:
逃避檢測的能力:今天,我們監控模型的可見思維鏈。然而,隨着模型學會隱藏其推理——要麼通過監督意識(知道被監控)要麼通過不透明推理(不使用可見文本進行推理)——僅僅閲讀它們的口述推理將不夠。我們需要分析它們的行為,並可能檢查模型的內部工作。
潛在危害的能力:對於低風險和可逆行動,我們可以依賴延遲審查記錄並在問題發生後快速修復(異步響應)。對於特別高風險的行動,如重大網絡攻擊,我們必須轉向實時預防,在有害行動執行前阻止它們(同步響應)。換句話説,我們的響應策略必須隨着威脅的嚴重程度而擴展。
AI控制路線圖根據部署模型的能力推薦安全措施。模型的逃避檢測能力決定檢測級別(D1-D4),模型的攻擊執行能力決定預防和響應級別(R1-R3)。
分析百萬代理軌跡以指導實時監控
為了構建這些系統,我們需要數據。我們的團隊構建了一個異步監控系統的內部原型,該系統審查編碼代理軌跡,並將發現結果上報給人工審查。每個標記的事件都根據路線圖中的威脅分類法進行分類。
我們已經分析了100萬個編碼代理任務,獲得了寶貴的見解以完善我們的安全協議,並使我們能夠超越簡單的關鍵詞過濾,識別出高信號的行為模式。例如,這項研究對於構建Gemini Spark代理的實時監控器至關重要,使我們能夠實時響應新興問題,如意外數據刪除。
值得注意的是,我們的數據顯示,大多數標記事件並非源於惡意意圖;相反,它們通常源於代理誤解或過度渴望實現用户目標。理解這些細微差別對於完善我們的安全和保障協議至關重要。
保護代理生態系統是共同責任
AI控制路線圖是我們多層代理安全方法中的一個關鍵元素。通過將這些協議與我們的更廣泛基礎設施集成,我們正在擴展內部安全,以安全管理我們最先進的AI模型。
此外,這種多層代理安全方法應該是行業、政策制定者和學術界的合作優先事項。通過圍繞最佳實踐和標準協調生態系統,我們可以賦能網絡防禦者並建立社會韌性。這就是為什麼今天我們還在發佈一份面向政策制定者的技術框架“代理安全的三個層面”。該論文詳細説明了我們如何在單個代理層面、多代理系統層面以及更廣泛的生態系統中提高安全,以賦能網絡防禦者並建立韌性。
我們打算在這些框架的基礎上,自信地部署當前能力的AI,同時繼續為未來建立安全的基礎。
閲讀完整技術報告:
AI控制路線圖
研究作者
Mary Phuong, Erik Jenner, Laurent Simon, Lewis Ho, Rohin Shah, Sebastian Farquhar, 和 Scott Coull。
致謝
Four Flynn, Anca Dragan, Alan Cooney, Bilal Chughtai, Buck Shlegeris, Cody Wild, David Lindner, Julian Stastny, Kevin Klyman, Li Ding, Myriam Khan, Raluca Ada Popa, Roland Zimmermann, Ryan Greenblatt, Senthooran Rajamanoharan, Victoria Krakovna 和 Xerxes Dotiwalla。