2026-05-18 15:29 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

ARFBench介紹：基於真實事件的時間序列問答基準

每年因系統故障損失超過萬億美元。為快速解決故障，工程師需要分析觀測指標（時間序列資料）。ARFBench是一個基於Datadog內部真實事件的時間序列問答（TSQA）基準，評估現有AI模型在TSQA任務上的表現。研究發現，現有模型仍有較大改進空間，而混合TSFM-VLM模型展示了潛力，且人類與AI具有互補性。

來源AIhub作者: ML@CMU

每年因系統故障造成的損失超過萬億美元。為了快速排除故障，工程師必須迅速分析觀測指標，即反映軟體系統健康狀況的時間序列資料。例如，某服務的工程師可能使用Datadog來回答“延遲何時開始增加？”或“除延遲外還有哪些指標異常？”等問題，以定位異常行為的根本原因。這類時間序列問答（TSQA）任務對工程師至關重要，也是SRE模型和智慧體面臨的重要挑戰。

為此，我們推出了異常推理框架基準（ARFBench），這是一個基於Datadog內部真實事件構建的TSQA基準，使用了Datadog自身的內部遙測資料。ARFBench具有三個關鍵特點：首先，它使用來自生產系統的真即時間序列資料；其次，每個問答示例都基於專家標註和額外上下文；第三，任務設計測試組合推理能力，問題分為三個難度遞增的層級，高層級任務依賴低層級的正確推理。

ARFBench包含750個問答對，來自142個時間序列和63個事件。時間序列最多有2283個變數和4萬個時間步，這對上下文有限的模型構成了挑戰。為構建ARFBench，我們搭建了一個VLM流水線，從內部事件討論執行緒中提取時間序列圖表，生成並篩選問答對，然後人工驗證每個問題的正確性和隱私性。

我們評估了三類現有模型：處理文本時間序列的LLM、處理圖表影像的VLM以及使用時間序列編碼器的TSFM。結果顯示，現有模型中GPT-5（VLM）表現最佳，準確率62.7%，F1分數51.9%，但遠低於領域專家（準確率71.5%）。有趣的是，開源模型在某些情況下優於較舊的商業模型。

為解決純視覺和文本表示的侷限性，我們訓練了一個混合模型，結合了最先進的觀測TSFM Toto與開源VLM Qwen3-VL 32B。經過多階段後訓練（包括監督微調和強化學習），得到的Toto-1.0-QA-Experimental模型在ARFBench上取得了最高準確率63.9%，並在異常識別任務中顯著領先，F1分數比最佳模型高出8.8個百分點。該模型引數量遠低於前沿模型，推理時更具效率。

我們觀察到，最佳模型與人類專家在單個問題上的錯誤模式差異顯著。GPT-5正確回答了48%兩位專家都答錯的問題（這些錯誤多涉及指令遵循或精細感知），而至少一位專家正確回答了79%GPT-5答錯的問題（模型錯誤多涉及幻覺或領域知識缺失）。基於這種互補性，我們計算了模型-專家聯合預測的“神諭”指標，準確率達到87.2%，F1為82.8%，遠超現有模型能力，為LLM、VLM和TSFM設立了新的超人類前沿。

未來，ARFBench可評估端到端事件響應智慧體的時間序列推理能力。歡迎訪問Hugging Face獲取基準、排行榜和模型權重，或閱讀論文了解更多細節。