AI News HubLIVE
サイト内リライト2 分で読了

ARFBenchの紹介:実際のインシデントに基づく時系列質問応答ベンチマーク

システム障害により毎年1兆ドル以上の損失が発生しています。エンジニアは迅速に障害を解決するため、可観測性メトリクス(時系列データ)を分析します。ARFBenchはDatadogの実際のインシデントから構築された時系列質問応答(TSQA)ベンチマークであり、既存のAIモデルのTSQA性能を評価します。実験の結果、既存モデルには改善の余地が大きく、ハイブリッドTSFM-VLMモデルが有望であり、人間とAIの相補性が超人的なパフォーマンスを達成することが示されました。

ソースAIhub著者: ML@CMU

システム障害による損失は毎年1兆ドルを超えます。迅速なトラブルシューティングのために、エンジニアはソフトウェアシステムの健全性を示す時系列データ(可観測性メトリクス)を分析する必要があります。例えば、あるサービスのエンジニアはDatadogを使用して「レイテンシはいつから増加し始めたか?」「レイテンシ以外に異常な動作を示すメトリクスはどれか?」といった質問に答え、異常動作の根本原因を特定します。このような時系列質問応答(TSQA)タスクはエンジニアにとって不可欠であり、SREモデルやエージェントにとって重要な課題です。

そこで、我々はAnomaly Reasoning Framework Benchmark(ARFBench)を導入します。これはDatadogの内部インシデントに基づき、同社の内部テレメトリを使用して構築されたTSQAベンチマークです。ARFBenchには3つの重要な特徴があります。第一に、本番システムからの実際の時系列データを使用します。第二に、各質問応答例は専門家のアノテーションと追加コンテキストに基づいています。第三に、タスクは構成推論をテストするように設計されており、質問は難易度が増す3つの階層に分かれ、高階層のタスクは低階層の正しい推論に依存します。

ARFBenchは142の時系列と63のインシデントから抽出された750のQAペアで構成されます。時系列は最大2283変数、4万タイムステップを持ち、コンテキスト制限のあるモデルにとって困難な設定です。ベンチマーク構築には、内部インシデント議論スレッドから時系列ウィジェットを抽出するVLMパイプラインを使用し、生成された質問を手動で検証しました。

我々は3種類の既存モデルを評価しました:時系列をテキストで扱うLLM、プロット画像を入力とするVLM、時系列エンコーダを使用するTSFMです。結果、既存モデルの中で最良はGPT-5(VLM)で、正解率62.7%、F1スコア51.9%でしたが、専門家(正解率71.5%)には及びませんでした。注目すべきは、一部のオープンソースモデルが古い商用モデルを上回ったことです。

純粋な視覚・テキスト表現の限界を克服するため、最先端の可観測性TSFM「Toto」とオープンソースVLM「Qwen3-VL 32B」を組み合わせたハイブリッドモデルを訓練しました。教師あり微調整と強化学習を含む多段階後訓練の結果、得られたToto-1.0-QA-ExperimentalはARFBenchで最高正解率63.9%を達成し、異常識別タスクではF1で他モデルを8.8ポイント以上上回りました。このモデルのパラメータ数はフロンティアモデルより数桁少なく、推論時の効率向上が期待できます。

最良モデルと人間専門家のエラーパターンは顕著に異なりました。GPT-5は両専門家が誤答した問題の48%を正解したのに対し、専門家はGPT-5が誤答した問題の79%を正解しました。この相補性を利用してモデル・専門家のオラクルを計算したところ、正解率87.2%、F1 82.8%という超人的なパフォーマンスを達成しました。

将来的には、ARFBenchはエンドツーエンドのインシデント対応エージェントの時間推論能力評価に役立つと考えられます。ベンチマーク、リーダーボード、モデル重みはHugging Faceで、コードはGitHubで公開されています。詳細は論文をご参照ください。