Webベースの間接的プロンプトインジェクションが実環境で確認される
Palo Alto Networks Unit 42は、間接的プロンプトインジェクション(IDPI)攻撃が積極的に武器化されている初の実環境での検出を報告しました。これらの攻撃は、AIエージェントを操作するためにWebコンテンツに隠れた命令を埋め込み、AIベースの広告レビュー回避事例を含みます。記事は、大規模なテレメトリに基づく攻撃者の意図とペイロードエンジニアリング技術の分類を示しています。
間接的プロンプトインジェクション(Indirect Prompt Injection, IDPI)は、攻撃者が悪意のある命令をWebページのコンテンツに隠蔽し、AIシステム(大規模言語モデルなど)がそのコンテンツを処理する際に、意図せずその命令を実行させる攻撃手法です。直接的なプロンプトインジェクションとは異なり、IDPIはAIシステムが日常的に大量の信頼できないWebコンテンツを消費する特性を悪用します。
Palo Alto Networks Unit 42チームは、2025年12月に実環境で検出された初のIDPI事例を報告しました。この攻撃は、AIベースの広告レビューシステムを回避することを目的としており、Webページに隠されたプロンプトがAIに不正な広告を承認させるよう誘導しました。該当ページは軍用眼鏡の偽セールを装い、虚偽の割引やコメントを表示し、クリックするとフィッシングサイトへリダイレクトされる仕組みでした。この事例は、IDPIが理論から実戦へと移行したことを示しています。
広告レビューの回避に加えて、Unit 42はSEO操作による既知のベッティングプラットフォームを模倣したフィッシングサイトの宣伝、データ破壊、サービス拒否、不正取引、機密情報漏洩、システムプロンプト漏洩など、複数の攻撃意図を発見しました。大規模なテレメトリデータの分析により、22の異なるペイロードエンジニアリング技術が特定され、攻撃者の意図とペイロード構築方法に基づく分類体系が提案されました。
攻撃者の意図は低、中、高、重大の4段階に分類されます。低 severityでは無関係な出力の生成やスクレイピング防止、中 severityでは採用やレビューシステムの操作、高 severityでは詐欺やフィッシングによる金銭的利益、重大 severityではデータ漏洩やシステム破壊、不正取引などが含まれます。ペイロードエンジニアリングは、プロンプトの配信方法(ゼロサイズ要素、CSS非表示、HTML属性難読化、実行時注入)と、セーフガードを回避する脱出技術(不可視文字、多層エンコーディング、ペイロード分割、多言語命令や構文注入などのセマンティックトリック)に分けられます。
AIエージェントのブラウザや検索エンジンへの統合が進むにつれ、Web自体がLLMへのプロンプト配信メカニズムとなり、攻撃面が拡大しています。防御側は、能動的かつ大規模にIDPIを検出し、良性プロンプトと悪意のある命令を区別し、攻撃者の意図を特定する能力が求められます。Palo Alto Networksは、Advanced DNS Security、Advanced URL Filtering、Prisma AIRS、Prisma Browserなどの製品を通じてこれらの防御を提供し、Unit 42 AIセキュリティアセスメントは組織の安全なAI利用を支援します。ユーザーは、不審なWebコンテンツをAIシステムで処理しないよう注意することが推奨されます。