AIエージェントの承認プロンプトはいつセキュリティ境界となるのか?
セキュリティ研究者がオープンソースのAIプロジェクトHermes Agentに対して3つの承認バイパス脆弱性を報告したところ、プロジェクト側は報告受理後にセキュリティポリシーを変更し、承認プロンプトをセキュリティ境界ではないヒューリスティックと再定義して報告をクローズした。本記事は、業界内での承認プロンプトのセキュリティ上の役割に関する不一致を議論し、デフォルトデプロイメントにおいて人間による確認ステップがセキュリティ管理なのか利便性なのかという重要な問題を提起する。
セキュリティ研究者が最近、オープンソースのAIエージェントプロジェクトHermes Agent(Nous Research開発)に関する3つのセキュリティ発見を開示しました。これらの発見は、AIエージェントの承認プロンプトに存在する潜在的なセキュリティ脆弱性を明らかにしています。しかし、プロジェクト側は報告受理後にセキュリティポリシーを変更し、これらの発見を範囲外として再分類したため、AIエージェントのセキュリティ境界の定義に関する業界の議論を引き起こしています。
研究者によると、Hermes Agentの承認システムは危険なコマンドの実行を防ぐことを目的としていますが、3つのバイパス方法が存在します。まず、オプションの「スマート」承認モードでは、2番目の大規模言語モデルがフラグ付きコマンドを判断しますが、入力されたコマンドがレビューモデルのプロンプトに直接挿入され、セマンティックな分離がないため、注入されたテキストがモデルを欺いて危険な操作を承認させる可能性があります。次に、エージェントの起動フックディレクトリ内のPythonファイルは、登録や検証なしで起動時に自動実行されるため、プロンプトインジェクションにより、攻撃者は承認をトリガーせずに悪意のあるファイルを書き込み、次回起動時に任意のコードを実行できます。最後に、承認システムの検出メカニズムは、解析されたトークンではなく元のコマンド文字列の正規表現マッチングに基づいているため、攻撃者は引用符、変数間接参照、代替シェルバイナリなどを使用して検出を簡単にバイパスし、同じ危険な操作を実行できます。
研究者が報告を提出した時点では、プロジェクトのセキュリティポリシーは承認システムを「中核的なセキュリティ境界」と明示し、「承認システムの具体的なバイパスをもたらすプロンプトインジェクション」を範囲内としていました。しかし、6日後にポリシーは書き換えられ、承認プロンプトは非境界のヒューリスティックと再定義され、関連条項が削除されました。研究者の報告はその後、範囲外としてクローズされましたが、プロジェクト側はポリシー変更について言及しませんでした。
この出来事は、業界内の不一致を浮き彫りにしています。例えば、AnthropicはClaude Codeで同様のコマンド解析エラーを高危険度の脆弱性(CVE-2026-24887)と評価し、修正をリリースしましたが、同社もサンドボックスを真のセキュリティ境界として推奨しています。同じクラスのバグに対して2つの主要プロジェクトが全く異なる結論に達したことは、「サンドボックスが真の境界である」という立場と「承認バイパスは脆弱性である」という立場が相互排他的ではないことを示しています。
研究者は、これらの脆弱性がサンドボックスなしのデフォルトのローカルバックエンド構成において重要であると強調しています。AIエージェントが実際のシェルアクセスを獲得するにつれて、人間による確認ステップがセキュリティ制御なのか利便性なのかという問題は、どの脆弱性が修正され、CVEが割り当てられ、あるいはクローズされるかを決定する実際的な問題となります。