AIエージェントの未来を守る
GoogleはAIコントロールロードマップを公開しました。これは、能力が高まる一方で完全には調整されていない可能性のあるAIエージェントを管理するための多層セキュリティフレームワークです。このフレームワークは、AIエージェントを内部関係者の脅威として扱い、監視、防止、対応のメカニズムを採用して安全性を確保し、AIの能力に応じて拡大します。
2026年6月18日 責任と安全性
AIエージェントの未来を守る
著者:Rohin Shah および Four Flynn
共有
私たちは、ますます強力になりながら不完全に調整されたAIに対して内部システムをどのように保護しているか。
AIエージェントはテクノロジーとの関係を変革しています。サイバー防御から科学的発見、製品開発に至るまで、複雑なタスクを自律的に実行することで、これらのシステムは生産性の新時代を切り開いています。米国だけでも、2030年までにAIエージェントは2.9兆ドルの経済価値を生み出す可能性があります。
これらのエージェントがより有能になるにつれて、より洗練された保護手段も必要になります。そこで私たちはAIコントロールロードマップを開発しました。これは、Google内で展開する高度なAIを構築および管理するためのフレームワークです。この「多層防御」アプローチは、より広範な業界のモデルとして機能する可能性があり、従来のモデルアライメントを超えて、重要なシステムレベルのセキュリティ層を追加し、アライメントが不完全でも保証を提供します。
AIコントロールの理解
当社のセキュリティアプローチは強固な基盤から始まり、サンドボックス、エンドポイントセキュリティ、プロンプトインジェクション耐性などの従来の保護手段を組み込んでいます。その上で、AIコントロールロードマップはモデルアライメント(つまり、AIを本質的に安全で役立つように訓練すること)を主要な防御として使用します。内部エージェントを潜在的に誤調整されたものとして扱うことにより、追加のセキュリティ層を提供し、アライメントが不完全でも保証を提供します。
これは、デュアルコントロールを持つ運転インストラクターのようなものです。インストラクターは生徒を信頼しますが、ミスが発生した場合に備えてハンドルを握ったりブレーキを踏んだりする準備をしています。同様に、当社のAIコントロールシステムは、エージェントの検証された行動に基づいて権限を付与し、制御された段階的なアクセスを通じて信頼を構築できるようにします。
当社のロードマップは、単純だが慎重な前提に基づいています。高度な能力を持つAIエージェントが私たちの目標と一致せず、予期しない方法で行動した場合はどうなるか?これに対処するため、当社の計画は3つの主要分野に焦点を当てています。
まず、サイバーセキュリティのベストプラクティスに従い、AIのための新しい脅威モデリングフレームワークを開発しました。ロードマップは、信頼できないAIエージェントを潜在的な「内部脅威」として扱います。これは、企業がオフィスへのアクセス権を持つ可能性のある不正従業員を扱う方法と同様です。業界標準のMITRE ATT&CKフレームワーク(実際の観察に基づく敵対者の戦術と技術のグローバルにアクセス可能な知識ベース)を基に、潜在的な攻撃をより小さな戦術と技術に分解します。これにより、リスクを体系的に追跡し、損害が発生する前に不正な行動を発見し、防御が実際に有効かどうかをテストするために安全に訓練を行うことができます。
次に、これらのリスクに対処するためのAIコントロール緩和策を展開する計画を策定します。
問題の特定(検出):監視はAIコントロールのバックボーンです。他の信頼できるAIシステムを「スーパーバイザー」として使用し、作業中のエージェントの推論、行動、計画を常にレビューして、逸脱していないかを確認します。
問題の管理(防止と対応):スーパーバイザーがエージェントが有害なことをしようとしているのを検出した場合、損害が発生する前に介入して行動をブロックできます。
最後に、システムが機能していることを確認するために、カバレッジ(監視されるトラフィックの割合)、再現率(捕捉された誤調整行動の割合)、応答時間の3つの重要なメトリクスでパフォーマンスを常に測定します。
AIが賢くなるにつれてセキュリティを拡大
AIモデルが進歩し続けるにつれて、防御も連動して強化する必要があります。AIコントロールロードマップでは、セキュリティプロトコルをAI能力の測定可能なマイルストーンにマッピングし、2つの重要な側面に焦点を当てています。
検出回避能力:現在、モデルの可視的な思考連鎖を監視しています。しかし、モデルが監督認識(監視されていることを知っている)や不透明な推論(可視テキストを使用せずに推論する)を通じて推論を隠すことを学習すると、単に口頭での推論を読むだけでは不十分になります。行動を分析し、場合によってはモデルの内部動作を検査する必要があります。
潜在的な害の能力:低リスクで可逆的なアクションについては、遅延してトランスクリプトをレビューし、問題が発生した後に迅速に修正する(非同期応答)ことに依存できます。特に高リスクなアクション(大規模なサイバー攻撃など)については、リアルタイムの防止に移行し、有害なアクションが実行される前にブロックする(同期応答)必要があります。言い換えれば、応答戦略は脅威の深刻度に応じて拡大する必要があります。
AIコントロールロードマップは、展開されたモデルの能力に基づいてセキュリティ対策を推奨します。モデルの検出回避能力が検出レベル(D1-D4)を決定し、モデルの攻撃実行能力が防止および対応レベル(R1-R3)を決定します。
100万のエージェント軌跡を分析してライブ監視に活用
これらのシステムを構築するには、データが必要です。当社のチームは、コーディングエージェントの軌跡をレビューし、結果を人間のレビューにエスカレートする非同期監視システムの内部プロトタイプを構築しました。フラグが立てられた各イベントは、ロードマップの脅威分類法に照らして分類されます。
私たちはすでに100万のコーディングエージェントタスクを分析し、安全プロトコルを洗練するための貴重な洞察を得て、単純なキーワードフィルタリングを超えて、高いシグナルを持つ行動パターンを特定できるようになりました。例えば、この研究はGemini Sparkエージェントのライブモニターを構築する上で重要な役割を果たし、意図しないデータ削除などの新たな問題にリアルタイムで対応できるようになりました。
注目すべきは、当社のデータによれば、フラグが立てられたイベントの大部分は敵意から生じるものではなく、多くの場合、エージェントの誤解やユーザーの目標を達成しようとする過剰な熱意に起因するということです。これらのニュアンスを理解することは、安全性とセキュリティプロトコルを洗練する上で重要です。
エージェントエコシステムの防御は共通の責任
AIコントロールロードマップは、エージェントセキュリティへの多層アプローチの重要な要素の1つです。これらのプロトコルをより広範なインフラストラクチャと統合することにより、内部セキュリティを拡大して、最も先進的なAIモデルを安全に管理しています。
さらに、エージェントセキュリティへのこの多層アプローチは、業界、政策立案者、学界の協力的な優先事項であるべきです。ベストプラクティスと標準を中心にエコシステムを調整することで、サイバー防御者を強化し、社会的回復力を構築できます。そのため、本日、政策立案者向けの技術フレームワーク「エージェントセキュリティの3層」も公開しています。このペーパーでは、個々のエージェントレベル、マルチエージェントシステム、そしてより広範なエコシステム全体でセキュリティを向上させ、サイバー防御者を強化し、回復力を構築する方法について詳しく説明しています。
当社は、これらのフレームワークを基に、今後も安全な基盤を構築しながら、現在の能力を持つAIを自信を持って展開することを目指しています。
完全なテクニカルレポートはこちらでお読みいただけます:
AIコントロールロードマップ
研究著者
Mary Phuong, Erik Jenner, Laurent Simon, Lewis Ho, Rohin Shah, Sebastian Farquhar, Scott Coull。
謝辞
Four Flynn, Anca Dragan, Alan Cooney, Bilal Chughtai, Buck Shlegeris, Cody Wild, David Lindner, Julian Stastny, Kevin Klyman, Li Ding, Myriam Khan, Raluca Ada Popa, Roland Zimmermann, Ryan Greenblatt, Senthooran Rajamanoharan, Victoria Krakovna, Xerxes Dotiwalla。