AI News HubLIVE
站内改写7 分で読了

列挙するな、予測せよ

Anthropicが脆弱性の優先順位付けにEPSS(エクスプロイト予測スコアリングシステム)を推奨したことは、静的深刻度スコアから予測モデルへの転換を示しています。この記事では、脆弱性量の機械規模の問題、ポインティングマシンとナレッジマシンの区別、そしてセキュリティプログラムがAIによって発見される脆弱性の波を乗り切るために必要なポリシー変更について探求します。

ソースO'Reilly AI & ML Radar著者: Michael Roytman

Anthropicが2026年4月に公開したセキュリティ運用ガイドの3分の1あたり、CISAの既知の悪用脆弱性リストにパッチを当てる推奨事項とデプロイメントパイプラインを自動化する提案の間に、小さな推奨事項が挟まれています:「残りを優先するためにEPSSを使用せよ」。過去10年間に脆弱性バックログに取り組んできた誰にとっても、この文はセキュリティプログラムが信号対雑音の機械規模の問題になっているという広く感じられているがしばしば語られない事実の承認です。

EPSS(エクスプロイト予測スコアリングシステム)は、統計モデルであり、既知のソフトウェア欠陥を取得し、それを攻撃者がインターネット全体で実際に行っていることに関する一連のシグナルにかけ、その欠陥が今後30日以内に悪用される確率を返します。LLMではなく、推論やプロンプトエンジニアリングも行いません。予測するのです。これを推奨する企業は、最新モデルが本番ソフトウェアで数千の新規で悪用可能な脆弱性(多くは20〜30年前のもので、大部分はまだパッチ未適用)を表面化できるのと同じ企業です。

私たちの知る限り、フロンティアAIラボが防御問題のために特別に構築された予測モデルを公に推奨したのは初めてです。LLMラボは通常LLMを推奨します。Anthropicがそうしなかったことは注目に値しますが、その推奨自体はそれが向けられている実践者にとってニュースではありません。それは彼らがずっと行ってきたことの説明です。

静かなコンセンサス

量の問題は新しいものではありません。2015年に大規模エンタープライズ環境に対してスキャナーを実行していた人は、月に数十万の発見を生成していました。2020年にクラウド環境に対して実行していた人は、数百万を生成していました。企業は、未修正の重要な発見の数がそれを修正するチームの能力よりも大きいダッシュボードを見つめて、10年近くを費やしてきました。言い換えれば、サイバーセキュリティは機械規模になったのです。

リスクベースの脆弱性管理は製品カテゴリーとして2018年頃から存在しています。EPSSは公共リソースとして2021年から使用可能です。今日では120以上のベンダーが製品にそれを組み込んでいます。この分野は何年もの間、予測ベースラインにアクセスできていました。

欠けていたのは、監査人、モデルリスク管理チーム、さらには取締役会からの現状を変える外部の正当化でした。監査人は明確な期待のセットを望み、採点をより客観的で評価しやすくします。CVSS(共通脆弱性評価システム)のようなコンプライアンスフレームワークは、CVSSが簡単だから人気があります。しかし、より効率的なものを実装するには歴史的に前述の外部の押しが必要でした。現役のCISOは、2019年にはCVSSで深刻度9.8/10と評価されたすべての脆弱性を緊急扱いするのをやめたと言うかもしれませんが、それでも報告書にはCVSSを残しているとも言うでしょう。

Anthropicのガイダンスが有用なのは、私的なコンセンサスを公にするからです。既知の悪用されているものをパッチし、その後チームの容量またはリスク許容度に基づいた閾値以上のEPSSを使用します。2021年11月以降、DHS CISAが既知の悪用脆弱性を公開する慣行は、既存の方法論が規模とシグナル不足によって圧倒されていたことのさらなる証明です。

なぜ予測なのか、はっきりと

2014年、Black Hatで、In-Q-Telの最高情報セキュリティ責任者Dan Geerが第一原理の質問をしました:ソフトウェアの脆弱性は疎か密か?疎とは有限であり、各修正が攻撃面を測定可能に縮小することを意味します。密とは野原の雑草を意味します。Geerはデータがなかったため質問に答えられませんでした。

8年後、カーネギーメロン大学ソフトウェア工学研究所のJonathan Springが脆弱性列挙を停止問題と結びつけ、理論的に、十分に複雑なデプロイされたソフトウェアに対しては常により多くの未発見の欠陥が存在することを示しました。

過去18ヶ月のAI駆動の発見結果により、密度の議論はコンプライアンスレビューでも無視できなくなりました。OpenBSDの27年前のバグ。FFmpegの16年前で500万回のファジングテストで捕まらなかったバグ。開発者自身の説明によれば、開示された発見は見つかったものの1%未満です。しかし繰り返しますが、量はすでに問題でした。最新モデルMythosのリリースに伴い、Anthropicはチームに今後24ヶ月で発見が一桁増えることを計画するよう伝えています。

静的深刻度スコアリングは量の問題を生き残れません。なぜならそれは人間規模の問題に対する解決策であり、問題は機械規模だからです。また、すべての重要な発見を緊急と扱うプロセスも生き残れません。行動の閾値は確率的で、測定可能で、弁護可能でなければなりません。それが予測モデルの目的であり、それが作業チームが騒がしい大企業環境で使用してきたものです。

ポインティングマシンとナレッジマシン

Geerは2025年夏に2014年の質問に戻り、Dave AitelとLawfareで記事を書きました。その記事は、業界が曖昧にしてきた区別のための語彙を提供します:

コード内の脆弱性は自動的に脅威ではありません。バッファオーバーフローはハザードです。攻撃者がそれを確実に悪用できる場合にのみ、この環境で、これらのコントロールに対して、このトラフィックを通じて、リスクになります。バグは豊富ですが、特定の標的に対して特定のバグを武器化する能力ははるかに稀です。

彼らは、業界はポインティングマシンを構築したと書きました。それは列挙します。

幼児でさえ早期に指さしと命名を学びますが、「犬」という単語を知っていても動物が噛むかどうかはわかりません。サイバーセキュリティでは、脆弱性が本当に危険かどうかを理解せずに指さし命名するシステムを構築してきました。パターン認識のみにAIを採用することで、強力な「ポインティングマシン」を作成し、潜在的な脅威を特定しますが、実際の影響を理解しません。代わりに必要なのは「ナレッジマシン」であり、複雑な実世界環境でコードがどのように機能するかを理解し、ハザードだけでなく、それらのハザードが真のリスクになる方法と理由の完全なコンテキストを認識します。

ナレッジマシンは、コードが特定の環境でどのように振る舞うかを理解し、ハザードをリスクに変えるコンテキストを認識するシステムです。予測モデルはナレッジマシンを構築する方法です。EPSSは最も明確な公開例です:すべての公開CVEをカバーし、毎日更新されます。

グローバルはローカルではない

EPSSはグローバルモデルです。攻撃者がインターネット全体で何をしているかを見ます。深刻度スコアが決して捉えられない悪用活動のパターンを拾います。見えないのは、特定の組織の環境です。ビジネスが実際に気にするデータを保持する資産を知りません。どのような補償コントロールが実施されているか、修復がどこでリスクが高いか、テレメトリと履歴がどのように確率を変えるかを知りません。

悪用確率97%の9.8と0.1%の9.8は同じ動物ではありません。同じEPSS閾値を同じCVEに適用している2つの組織でも、異なる資産では異なります。一方は脆弱なコードパスをインターネットに露出し、関連プロトコルを検査しないWebアプリケーションファイアウォールの背後にあります。もう一方は同じCVEを、単一のサービスアカウントからの認証された入力のみを受け入れる内部システムに持っています。スキャナーはそれらを区別できません。グローバルモデルは区別できません。実際のリスクプロファイルは桁違いに異なります。

ローカルコンテキストは、ほとんどのセキュリティチームがずっと立ち往生している場所であり、この分野の次の10年が戦われる場所です。

ローカルナレッジマシンが実際に必要とするもの

より良いポインティングマシンをより高速な修復エンジンと組み合わせても、あなたがしているのは混乱、破損、無駄な努力を生み出す速度を上げることだけです。また、あなたの環境では決して危険ではなかった脆弱性を修正するために、エージェントトークンに大金を費やすことになります。

全知のスキャナーとは対照的に、ローカルモデルは防御されている特定の環境でトレーニングされます:資産インベントリ、アプリケーショントポロジ、到達可能性、デプロイされたコントロール、現場で観測された攻撃テレメトリ、組織自身の修復とその結果の履歴。モデルは企業固有の確率を生成します。ほとんどの組織はすでに入力を持っており、CMDB、エンドポイントエージェント、ファイアウォールログ、チケッティングシステム、スキャナー出力に散らばっています。このコンテキストこそ、攻撃者(古き良きmetasploitを使用しているか、無限の予算を持つMythosを使用しているかにかかわらず)がモデルに欠けているものです。コンテキストは防御者にとって非対称的なアドバンテージとなり、おそらく唯一存在するものです。

実際に重要なポリシーシフト

セキュリティプログラムが今後24ヶ月を生き残るかどうかを決定する介入は、純粋に技術的なものではありません。CISOは何も購入せずにそれらのほとんどを動かすことができます。

SLAを書き直す。ほとんどの脆弱性管理SLAは深刻度で整理されています。クリティカルは15日以内、高は30日以内、中は90日以内。この構造は、未修正のクリティカルの数が重要であるほど小さかった世界のために構築されました。今やそれは積極的に有害です。なぜなら、誰も悪用していない9.8と活発に攻撃されている7.5に同じ労力を費やすことをチームに強制するからです。SLAは深刻度ではなく、悪用の確率と資産露出の観点から書き直されるべきです。GRCチームを通せないCISOは、少なくとも確率ベースのカットを深刻度ベースのものと並んで強制可能にする第2層を追加できます。

取締役会が見るものを変える。毎月のセキュリティレポートがさまざまなバケット(「クリティカル」、「30日以上未修復」など)の脆弱性、露出、または発見の数を数える場合、組織は間違ったメトリックで管理されています。メトリックは時間経過に伴う悪用可能性で重み付けされた露出であり、2行目は予測対観測された悪用であるべきです。取締役会は誰かが説明すればこれを受け入れます。これはリスクと関係がなく、新しいLLMモデルのリリースに伴って指数関数的に成長する数字を示すよりはるかに優れています。さらに重要なのは:優れたチームは驚異的な量の修復作業を行うことができますが、それでもリスクは上昇する可能性があります。なぜなら彼らは間違ったものを測定し修復しているからです。効率的でコンテキスト豊かなチームははるかに少ない作業で、イベントの確率を有意に下げることができます。

テレメトリーに投資する。セキュリティプログラムが構築できる最も価値のある計器は、優先順位付けされたものと悪用されたものの間のフィードバックループです。ループがあなたが間違っていたことを示せば、モデルは改善します。ループが存在しなければ、あなたは永久に間違ったままでいるでしょう(または単にミスに気づかない)。

コンプライアンスの会話を修正する。CVSSが生き残る理由は規制慣性です。PCI、HIPAA、およびほとんどの州のデータ漏洩通知フレームワークは依然として深刻度を参照しています。今後2年間で最も良い状態で出てくるCISOは、既存のルールの下で確率的優先順位付けフレームワークがどのように見えるかについて、今、書面で監査人と関わる人々です。

ボトルネックのためにスタッフを配置する。業界はバグを見つける人材を10年かけて雇ってきました。現在のボトルネックは、どのバグが重要かを決定し、修正をデプロイし、優先順位付けが正しかったかを測定することです。職務記述書はこれを反映すべきです。セキュリティデータエンジニアは、容量を増やすよりもSLAを満たす効率を向上させるかもしれません。

これらは新しい製品を必要としません。必要なのは、古いドグマは壊れており、新しいものはデータと確率によって管理されると公に言うことを厭わないCISOです。それがAnthropicの5語の文が実際に告げていたシフトです。テクノロジーは利用可能であり、モデルはここにあります——脆弱性を見つけるためのLLMベースのものと、効率的に優先順位付けするための予測ナレッジマシンの両方です。