2026-06-23 06:06 UTC+9サイト内リライト2 分で読了更新: 2026-06-23 10:43 UTC+9

神話後のレッドチーミング — Zico Kolter & Matt Fredrikson, Gray Swan

このエピソードでは、Gray Swanの共同創業者であるZico KolterとMatt Fredriksonが、AIセキュリティは単なる「AIを使ったサイバーセキュリティ」ではなく、エージェントが新たな脆弱性をもたらす理由、そして次の大規模AIインシデントが「灰色の白鳥」となる可能性について説明します。プロンプトインジェクション、自動レッドチーミング、モデルの堅牢性、エージェントのアイデンティティ、そして新興のAI保険／コンプライアンススタックについて議論します。

ソースLatent Space

記事インテリジェンス

エンジニア中級

要点

AIシステムは従来のソフトウェアとは異なる固有の脆弱性を持ち、新しいセキュリティ思考が必要。
プロンプトインジェクションと間接プロンプトインジェクションは、コーディングエージェントや自律システムに新たな悪用クラスを生み出す。
Gray Swanの自動レッドチーミングモデルは、AIシステムを破る点で人間を凌駕できる。
初の大規模AIプロンプトインジェクション侵害は不可避であり、セキュリティはやがて保険とコンプライアンスの一部となる。

重要な理由

このニュースが重要なのは、AIシステムは従来のソフトウェアとは異なる固有の脆弱性を持ち、新しいセキュリティ思考が必要ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

米国政府がMythosおよびFableモデルへの輸出規制を発令したことを契機に、プロンプトインジェクションと間接プロンプトインジェクションが業界の注目を集めています。AI Engineer World's Fairで、Gray Swanの共同創業者でOpenAI取締役のZico KolterとCMU教授のMatt Fredriksonが、AIセキュリティの独自性について深く掘り下げました。彼らは、AIセキュリティは従来のサイバーセキュリティの単なる延長ではなく、まったく新しい領域であると指摘します。AIシステムには固有の脆弱性があり、騙されやすく、その脆弱性は大規模に連鎖する可能性があります。

Gray Swanは、自動レッドチーミングとコミュニティ連携を通じてAIモデルの安全性向上を目指しています。同社が運営するGray Swan Arenaには1万5千人以上のコミュニティメンバーが参加し、コンテストを通じてモデルの脆弱性を発見します。また、同社はレッドチーミングに特化したモデル群を訓練し、会話やエージェントシナリオでセーフガードを回避する方法を見つけ出します。例えば、ShadeモデルはClaudeのようなコーディングエージェントに対して、人間には気付きにくい間接プロンプトインジェクション攻撃を発見できます。

KolterとFredriksonは、フロンティアモデルは規模が大きくなっても自動的に安全になるわけではないと強調します。むしろ、広く展開されるため、脆弱性が発見されると連鎖的な影響を及ぼします。彼らは「リーサルトライフェクタ」として、信頼できないデータ、プライベートデータ、データ流出の3要素が組み合わさると、AIエージェントが乗っ取られやすくなると指摘します。最初の大規模AIプロンプトインジェクション侵害はほぼ避けられず、セキュリティはやがて企業保険とコンプライアンスの必須要素になると予測します。

将来、AIセキュリティはAIシステム同士が攻撃、防御、解釈し合うことに依存する可能性があります。OpenClawのようなコンピュータ使用エージェントはセキュリティの課題をさらに高めており、エージェントのアイデンティティ管理、権限制御、エンタープライズ展開戦略の再設計が急務です。Gray SwanのCygnalガードレールモデルは、エージェント向けにポリシー実行層の保護を提供し始めています。最終的にAIセキュリティは、かつてのサイバーセキュリティのように独立した保険・コンプライアンス産業へと発展するでしょう。