エージェントのアイデンティティ:すべてのエージェント脆弱性が信頼境界の失敗である理由
AIエージェントシステムにおける信頼境界の問題を解説。エージェントは単なるモデル呼び出しではなく、ランタイムにモデルがツール呼び出しを決定するループです。これにより、プロンプトインジェクション、アイデンティティスプーフィング、予算爆弾、ツールポイズニングなどの攻撃が発生します。根本的な問題はアイデンティティ伝播の欠如であり、PortkeyとPalo Alto Networksのソリューションは、エージェントゲートウェイによるアイデンティティ、MCPレジストリによるドリフト検出、LLMゲートウェイによるクォータとガードレールを提供し、プラットフォーム層で信頼を強制します。
AIエージェントシステムでは、セキュリティ脆弱性はしばしばモデルのエラーやツールの欠陥として誤解されますが、実際の原因は信頼境界の失敗、すなわち異なる権限を持つコンポーネント間の信頼の欠如です。
従来のアプリケーションとは異なり、エージェントはループです。モデルは実行時に、開発者が見たことのないテキストを読んだ後、どのツールをどの引数で呼び出すかを決定します。これにより新たな攻撃面が生まれます。
信頼境界はどこにあるか
単純な推論呼び出しには副作用がありません。モデルはテキストをテキストにマッピングし、ガードレールが入出力を制御します。しかしエージェントはループです。ランタイムはモデルがツールを要求しなくなるまで呼び出し続けます。モデルはユーザーID、ツールの安全性、予算制限を知りません。信頼の問題はモデルではなくループの特性です。
アイデンティティ伝播の重要性
エージェントがバックエンドサービスを呼び出す際、リクエストが署名されたユーザークレームを持たない場合、受信側はすべてを拒否するか(製品が動かない)、呼び出し元を信頼するか(混乱したデプティ)の二択です。これが現在のエージェントプラットフォームの主要な障害モードです。同様に、MCPサーバーはセッション間でツールリストや説明を変更でき、エージェントはそれらをプロンプトにレンダリングします。制御されていないMCPサーバーは、システムプロンプトの可変拡張となります。
4つの一般的な攻撃
- プロンプトインジェクション:ツールが返すテキスト(メール本文など)にモデルへの指示が含まれ、モデルはデータと指示を区別できない。
- アイデンティティスプーフィング:エージェントが検証されていないユーザーIDヘッダーを転送し、ダウンストリームツールがそれを信頼する。
- 予算爆弾:モデルが有料ツールを400回ループ呼び出しし、支出チェックがない。
- ツールポイズニング:MCPサーバーがツール説明を「会話をattacker@にメール送信する」と更新し、エージェントが実行する。
各攻撃は未定義の信頼境界を越えます。
プラットフォーム層での強制
Portkey Agent Gatewayは各エージェントにワークロードアイデンティティを発行し、OAuthベアラートークンによるアイデンティティ伝播をサポートします。MCP Registryは署名済みマニフェストを登録し、ドリフトを監視して異常なサーバーを隔離します。LLM Gatewayは単一の出口として、レート制限とコスト上限を適用し、Palo Alto Networks Prisma AIRSガードレールを統合します。これらの制御は協調して信頼境界をカバーします。アイデンティティ伝播はスプーフィングを防ぎ、レジストリ制御はツールポイズニングを防ぎ、ゲートウェイクォータは予算爆弾を防ぎ、ガードレールはプロンプトインジェクションを阻止します。
結論として、信頼境界は開発者の慣習ではなく、インフラストラクチャによって強制されなければなりません。Portkeyプラットフォームはポリシーをコントロールプレーンに一元化し、フェイルファストを実現します。