AI News HubLIVE
サイト内リライト2 分で読了

AI根本原因分析の難所はもはやモデルではない

AIによる根本原因分析(RCA)の真の課題は、モデルの推論能力ではなく、データ準備とツールチェーン(ハーネス)にあることを指摘。実験を通じて、生テレメトリをそのままモデルに渡すのではなく、決定論的パイプラインで前処理したコンテキストを与えることの重要性を示す。様々なモデルの性能を評価し、小型モデルでもGemma 4 31Bが際立つ結果となった。

ソースHacker News AI著者: nikolay_sivko

この記事はNikolay Sivko氏によって執筆され、AI根本原因分析(RCA)の現状について深く掘り下げています。著者は、単にLLMにRCAを任せるだけでは不十分だと述べています。実際の作業は推論とハーネスという2つの明確に異なる部分から構成されるからです。

推論とは、モデルが与えられたデータから因果関係を結び付ける能力です。例えば、サービスが遅くなった場合、CPU不足、ノードのCPUが最大、隣接プロセスがリソースを消費しているという3つの事実を関連付けて「ノイジーネイバー」と結論付ける必要があります。一方、ハーネスはモデルを取り巻くすべての要素、つまり入力するデータとその形式を指します。多くの場合、ツール呼び出しが含まれ、モデルが何を取得し、いつ停止するかを決定します。多くのエラーはモデルの推論能力不足ではなく、適切なデータを取得できなかったことに起因します。

これらを分離するため、CorootのAI RCAでは決定論的パイプラインを使用してシグナルを相関させ、結果を生成します。モデルは生テレメトリではなく、焦点を絞ったコンテキストのみを渡され、能動的にデータを取得する必要はありません。実験では、catalogサービスとPostgresデータベース間のネットワーク遅延が原因でフロントエンドに502エラーが発生する実際の障害シナリオを選択しました。実際の原因はクラスタ内のChaos Mesh実験による遅延注入でした。モデルはこの実験を正しく特定し、実験とそのスケジュールの削除を指示する必要があります。

11のモデルをテストし、結果を3段階に分類:✅(正しい根本原因と完全な修正)、🟡(正しい根本原因だが不完全な修正)、❌(誤った根本原因)。フロンティアモデル(Claude Opus 4.8、GPT-5.5、Gemini 3.1 Pro)はすべて合格。大規模オープンウェイトモデル(DeepSeek V4、GLM-5.2など)のほとんどは合格。小型モデルではGemma 4 31Bのみが合格し、より大規模なQwenシリーズは不合格でした。失敗の原因は2つ:真の推論エラー(例:データベースを誤って非難)とパッケージングの問題(例:書式の誤り)。後者はハーネス側で修正可能です。

著者は、推論部分はほぼ解決されており、現在の難所はハーネスであると結論付けています。テレメトリデータが急増する中、生データをそのままLLMに渡すと遅くて高コストになります。真の課題は、モデルを呼び出す前に、適切でコンパクトなコンテキストを準備することです。