ARFBench介紹:基於真實事件的時間序列問答基準
每年因系統故障損失超過萬億美元。為快速解決故障,工程師需要分析觀測指標(時間序列資料)。ARFBench是一個基於Datadog內部真實事件的時間序列問答(TSQA)基準,評估現有AI模型在TSQA任務上的表現。研究發現,現有模型仍有較大改進空間,而混合TSFM-VLM模型展示了潛力,且人類與AI具有互補性。
每年因系統故障造成的損失超過萬億美元。為了快速排除故障,工程師必須迅速分析觀測指標,即反映軟體系統健康狀況的時間序列資料。例如,某服務的工程師可能使用Datadog來回答“延遲何時開始增加?”或“除延遲外還有哪些指標異常?”等問題,以定位異常行為的根本原因。這類時間序列問答(TSQA)任務對工程師至關重要,也是SRE模型和智慧體面臨的重要挑戰。
為此,我們推出了異常推理框架基準(ARFBench),這是一個基於Datadog內部真實事件構建的TSQA基準,使用了Datadog自身的內部遙測資料。ARFBench具有三個關鍵特點:首先,它使用來自生產系統的真即時間序列資料;其次,每個問答示例都基於專家標註和額外上下文;第三,任務設計測試組合推理能力,問題分為三個難度遞增的層級,高層級任務依賴低層級的正確推理。
ARFBench包含750個問答對,來自142個時間序列和63個事件。時間序列最多有2283個變數和4萬個時間步,這對上下文有限的模型構成了挑戰。為構建ARFBench,我們搭建了一個VLM流水線,從內部事件討論執行緒中提取時間序列圖表,生成並篩選問答對,然後人工驗證每個問題的正確性和隱私性。
我們評估了三類現有模型:處理文本時間序列的LLM、處理圖表影像的VLM以及使用時間序列編碼器的TSFM。結果顯示,現有模型中GPT-5(VLM)表現最佳,準確率62.7%,F1分數51.9%,但遠低於領域專家(準確率71.5%)。有趣的是,開源模型在某些情況下優於較舊的商業模型。
為解決純視覺和文本表示的侷限性,我們訓練了一個混合模型,結合了最先進的觀測TSFM Toto與開源VLM Qwen3-VL 32B。經過多階段後訓練(包括監督微調和強化學習),得到的Toto-1.0-QA-Experimental模型在ARFBench上取得了最高準確率63.9%,並在異常識別任務中顯著領先,F1分數比最佳模型高出8.8個百分點。該模型引數量遠低於前沿模型,推理時更具效率。
我們觀察到,最佳模型與人類專家在單個問題上的錯誤模式差異顯著。GPT-5正確回答了48%兩位專家都答錯的問題(這些錯誤多涉及指令遵循或精細感知),而至少一位專家正確回答了79%GPT-5答錯的問題(模型錯誤多涉及幻覺或領域知識缺失)。基於這種互補性,我們計算了模型-專家聯合預測的“神諭”指標,準確率達到87.2%,F1為82.8%,遠超現有模型能力,為LLM、VLM和TSFM設立了新的超人類前沿。
未來,ARFBench可評估端到端事件響應智慧體的時間序列推理能力。歡迎訪問Hugging Face獲取基準、排行榜和模型權重,或閱讀論文了解更多細節。