2026-05-21 17:36 UTC+9サイト内リライト4 分で読了更新: 2026-06-30 22:03 UTC+9

AIレッドチームエージェントがLLMテストを変革

LLMの敵対的テストツールは急増したが、オペレーターがすべてを把握するのは困難になりつつある。新たなAIエージェントは攻撃戦略の選択、変換の構成、テスト実行を自律的に行い、効率を大幅に向上させる。Dreadnodeの研究では、エージェントが約3時間でMetaのLlama Scoutに対して674回の攻撃を実行し、成功率85%を達成した。ただし、カバレッジの制約、エージェント自身のアライメントによる拒否、人間専門家との正式な比較が未実施などの限界がある。

ソースHacker News AI著者: SVI

記事インテリジェンス

エンジニア上級

要点

AIエージェントは自然言語の目標から攻撃を自律実行し、コンプライアンスマッピングまで生成する。
DreadnodeのエージェントはLlama Scoutで85%の攻撃成功率だが、最先端モデルへの一般化は不明。
エージェントのアライメントにより特定の攻撃ワークフロー生成が拒否される場合があり、代替モデルが必要。
テストの敷居が下がることで防御者と攻撃者の両方に影響があるため、発見結果のトリアージが重要。

重要な理由

このニュースが重要なのは、AIエージェントは自然言語の目標から攻撃を自律実行し、コンプライアンスマッピングまで生成するためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

2026年5月21日、AIレッドチームテストに関する新たな研究により、自律エージェントが大規模言語モデル（LLM）のセキュリティ評価方法を変革しつつあることが明らかになった。過去3年間で、LLMに対する敵対的プロービング技術は急速に拡大し、Tree of Attacks with Pruning、Crescendo、Skeleton Keyなどの攻撃手法と、数百のプロンプト変換およびスコアリング手法が、Microsoft PyRIT、NVIDIA Garak、Promptfooなどのオープンソースフレームワークに集積されている。しかし、ツールの増加ペースはオペレーターが熟練して扱える範囲を超えており、このミスマッチがAIレッドチームの方法論を変えている。

最近の研究は、AIエージェントが攻撃を選択し、変換を構成し、ターゲットに対して実行し、自然言語の目的から構造化された結果を生成する、エージェント主導の評価へと向かっている。Dreadnode社の新しい論文は、この流れに新たなデータを追加する。同社のエージェントは、1人のオペレーターが自然言語の目標を設定してから約3時間で、MetaのLlama Scoutに対して674回の攻撃を実行し、有害コンテンツやバイアスに関する68の敵対的目標にわたり85%の攻撃成功率を達成した。CrescendoやGraph of Attacks with Pruningといった新技術では成功率100%に達し、スケルトンキーフレーミングなどのペルソナベース変換も100%を記録した。Base64エンコーディングは75%と低く、モデルがエンコードされたペイロードをより確実に検出したことを示唆している。

研究の共著者でありMicrosoftのCounterfitおよびPyRITプロジェクトの共同作成者であるRaja Sekhar Rao Dheekonda氏は、従来のAIレッドチームフレームワークではオペレーターが攻撃、変換、スコアラー、データセット、実行パイプラインを手動で設定する必要があり、多くの作業がセキュリティプロービングではなくライブラリ設定の工学的作業になってしまうと指摘する。エージェントの核となるアイデアは、オペレーターを実装のオーバーヘッドから解放し、ターゲットの動作、攻撃カバレッジ、リスク分析といった高次の推論にシフトさせることだ。

ただし、これらの数字にはいくつかの重要な限定条件が伴う。3時間という時間はフレームワークの特定のサブセットに限定されており、論文自身の限界セクションでは、すべての攻撃タイプと危害カテゴリを網羅する完全な評価には数日かかることが認められている。また、Llama Scoutは2025年4月にリリースされた170億パラメータのモデルであり、中規模のオープンモデルでの85%の成功率は、現在の最先端システムに対する結果を保証するものではない。

さらに、調整された開示プロセスも問題となる。研究者は、シェルコードローダーや化学合成手順を含む出力を公開する前にMetaとの調整を行わなかったと述べており、その後のLlama Scoutのチェックポイントが特定の攻撃と変換の組み合わせを緩和しているかどうかは評価していない。

エージェント自身のアライメントもカバレッジを制約する。Dheekonda氏によると、調整エージェントがオペレーターの目的を有害と解釈し、正当なレッドチームワークフローの構成を拒否する事例が観察されている。高度に調整されたフロンティアモデルは、自傷やCBRNプロービングなどの機密カテゴリに対する攻撃ワークフローの生成を拒否する傾向がある。そのため、Llama Scoutの研究では、Moonshot AIのKimi 2.5モデルを攻撃者兼判断者として使用した。CBRNや児童安全ドメインの包括的評価はまだ進行中である。

熟練した人間との正式な比較は行われていない。Dheekonda氏は、高度な文脈依存のソーシャルエンジニアリング、新規のエクスプロイト連鎖、限られた攻撃履歴しかない新興攻撃面においては、熟練した人間がエージェントを上回ると指摘する。

敵対的テストの運用ハードルを下げることは、防御者と攻撃者の両方に利益をもたらす。Dheekonda氏は、基礎技術はすでに公開されているため、重要な変化はアクセスと規模であると述べる。組織にとってより大きなリスクは、攻撃技術が公開されているかどうかではなく、防御者が実際の攻撃者に先んじてシステムを積極的かつ継続的にプローブできるかどうかにある。同氏はまた、アクセシビリティの変化が脅威モデルに影響を与え、以前はスクリプト作成の専門知識が必要だった構成とオーケストレーションの作業が、より低いオーバーヘッドで実行可能になると指摘する。

セキュリティプログラムにとって、1人のオペレーターが半日で数百の攻撃を実行できるようになれば、継続的なAI評価が実現可能になる。これにより、年次または四半期ごとのレッドチーム契約に依存した調達と人員配置の前提が変わる。また、人間の判断はスタックを引き上げられ、価値あるスキルはワークフローエンジニアリングからトリアージへと移行する。つまり、数百の自動化された発見結果のうち、特定のデプロイメントコンテキストで実際のリスクを反映するものを決定することだ。

大量の発見は独自の失敗モードを生み出す。自動コンプライアンスタグ付きで232の重大な発見結果を報告するダッシュボードは、簡単にセキュリティと誤認される。エージェント駆動評価を採用するチームは、どの発見を修正し、どの発見を既知リスクとして受け入れ、どの発見が真の脆弱性ではなくスコアラーのアーティファクトであるかを決定する責任を持つ必要がある。また、エージェントレッドチーム活動（エージェント攻撃者の活動と非常に類似している）を検出するツールも未発達である。

方向性は定まっている。今後の課題は、より迅速な評価がより優れたセキュリティを生み出すことを確実にすることである。