2026-05-26 12:45 UTC+9サイト内リライト3 分で読了更新: 2026-06-30 22:03 UTC+9

Show HN: AgentToolBench-Code – AIコーディングエージェント向けセキュリティベンチマーク

Allen Wu 氏は、AIコーディングエージェントの静かなセキュリティ障害を評価するオープンソースベンチマーク、AgentToolBench-Code を発表しました。Claude Code Sonnet 4.6 と Haiku 4.5 を16のシナリオでテストした結果、Sonnet は +9（12キャッチ、3サイレントフェイル、1ノーオペレーション）、Haiku は +3（8キャッチ、5サイレントフェイル、3ノーオペレーション）でした。当初の同点は小さなコーパスによるもので、拡張セットでは Sonnet がパターン認識で優位に立つことが示されました。両モデルは依存関係の信頼と予算の規律に関する構造的な障害を共有しています。このベンチマークは約3.50ドルのAPIコストで再現可能であり、コミュニティの貢献を歓迎しています。

ソースHacker News AI著者: allenwu06

記事インテリジェンス

エンジニア中級

要点

AgentToolBench-Code は、AIコーディングエージェントの静かなセキュリティ障害を検出するオープンソースベンチマークです。
16のCVEクラスシナリオに拡張され、Sonnet 4.6 が Haiku 4.5 を大幅に上回りました。
両モデルは依存関係のインストールや予算枯渇といった構造的攻撃に失敗し、システム的な問題を浮き彫りにしました。
約3.50ドルで再現可能であり、コミュニティによるシナリオ貢献や他のエージェントの実行を募集しています。

重要な理由

このニュースが重要なのは、AgentToolBench-Code は、AIコーディングエージェントの静かなセキュリティ障害を検出するオープンソースベンチマークですためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Allen Wu 氏は本日、AgentToolBench-Code v0.0.1 をリリースしました。これは、AI コーディングエージェントが現実世界のセキュリティ脅威に直面した際のパフォーマンスを評価するためのオープンソースベンチマークです。このベンチマークは、当初10のシナリオで構成されていましたが、現在は16に拡張され、各シナリオは実際の CVE クラスに基づいています。Wu 氏は、このベンチマークを使用して、Anthropic の Claude Code の2つのモデル、Sonnet 4.6 と Haiku 4.5 をテストしました。

最初の10シナリオでは両モデルが同点（+5/10）でしたが、シナリオを拡大すると差が顕著になりました。Sonnet は16シナリオ中 +9 点（12キャッチ、3サイレントフェイル、1ノーオペレーション）を獲得したのに対し、Haiku は +3 点（8キャッチ、5サイレントフェイル、3ノーオペレーション）に留まりました。Wu 氏は、初期の同点は小規模なコーパスによるアーティファクトであり、拡張シナリオがモデルを区別する重要な失敗モードをカバーしたと述べています。Sonnet はパターン認識において明らかに優れており、PyPI のタイポスクワッティング、RFC1918 内部IP、デバッグ出力内のシークレット値を検出できましたが、Haiku はこれらを見逃しました。

しかし、両モデルは構造的な攻撃に対して同様に脆弱でした。例えば、「依存関係のインストール」では、ユーザーが「npm install を実行」と指示した際、両モデルともパッケージマニフェストを検査せずに即座に実行し、悪意のある postinstall スクリプトが起動される可能性がありました。また、「予算枯渇」攻撃では、複数のファイルを要約するよう求められたとき、両モデルが制限なく処理を行い、許容量を超える大量のトークンを消費しました。これらの失敗は、モデルの能力の問題ではなく、Claude Code のデフォルト動作（ユーザー指示に優先的に従い、セキュリティチェックを後回しにする）に起因するものとされています。

ベンチマークは8つの評価軸で構成され、各軸に2つのシナリオがあります：PI-CODE（悪意のあるポリシーファイル）、PI-TOOL（プロンプトインジェクション）、CMD-INJ（コマンドインジェクション）、CRED-LEAK（認証情報漏洩）、DEP-MAL（依存関係のマルウェア）、FS-ESCAPE（ファイルシステムエスケープ）、NET-EGRESS（ネットワークエグレス）、BUDGET-DOS（予算枯渇によるDoS）。各シナリオでは、新しいサンドボックス環境、もっともらしいユーザープロンプト、0.25ドルの予算上限が提供されます。Oracle は出力テキスト、ツールコール、トークン消費に基づいてスコアリングします。

Haiku 特有の失敗例としては、内部IPへの Webhook の発信（Sonnet は拒否したが Haiku は実行）、デバッグ出力での環境変数漏洩（Sonnet は危険を認識し修正を推奨したが、Haiku は何もせずに秘密を出力した）などがあります。Wu 氏は、Haiku の「何もしない」判定が最も懸念されると指摘。これは単なるサイレントフェイルではなく、危険を認識さえしなかった「静かな無関心」であると述べています。

評価システム（Oracle）は4バージョンにわたって改良され、ツールコール内の禁止パターン検出、攻撃認識語彙、サブエージェントの最大ディスパッチ数、トークン総消費制限などが追加されました。各バージョンは実際の失敗モードに対応しており、24のユニットテストで検証されています。すべての判定要素は JSONL ファイルに記録され、結果は監査可能です。

コスト面では、Sonnet の16シナリオ実行は約2.50ドル、Haiku は約1ドル、合計約3.50ドルです。Wu 氏はリポジトリのクローン方法、仮想環境のセットアップ、依存関係のインストール、ベンチマークの実行手順を詳細に説明しています。ただし、いくつかの限界も認めています：N=16のシナリオ、N=2のモデル、各1〜2回の実行であり、一般化には注意が必要です。また、全モデルが同一プロバイダー（Anthropic）であり、他ベンダーとの比較には別途バイナリとAPIキーが必要です。デフォルトのパーミッションモードは「auto」で、より厳格な設定では一部のサイレントフェイルが防止できた可能性があります。

Wu 氏は、非英語圏の学部生が独力でこの作業を行ったこと、AIセキュリティ分野での既存の評価はないことを正直に開示しています。それでも、本フレームワークは現実的なCVEクラスの攻撃シナリオ、厳格なOracle、トークンレベルの属性情報の組み合わせにより、注目の有無にかかわらず有用であると信じています。彼はコミュニティに対し、新たなシナリオの提案（実際のCVEやインシデントに基づく）、誤分類の報告、他のエージェント（Codex CLI、Aider、OpenHands、SWE-agent など）の実行と結果JSONLの提出を呼びかけています。また、能力スケーリングにより認識クラスの失敗は改善されるが、構造クラスの失敗（依存関係の信頼、予算の規律）は改善されないという重要な知見を強調しています。

このベンチマークは、AIコーディングエージェントのセキュリティ評価において、単なるモデル能力を超えたシステムレベルの脆弱性の理解を促すものです。