2026-05-18 15:29 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

ARFBench介绍：基于真实事件的时间序列问答基准

每年因系统故障损失超过万亿美元。为快速解决故障，工程师需要分析观测指标（时间序列数据）。ARFBench是一个基于Datadog内部真实事件的时间序列问答（TSQA）基准，评估现有AI模型在TSQA任务上的表现。研究发现，现有模型仍有较大改进空间，而混合TSFM-VLM模型展示了潜力，且人类与AI具有互补性。

来源AIhub作者: ML@CMU

每年因系统故障造成的损失超过万亿美元。为了快速排除故障，工程师必须迅速分析观测指标，即反映软件系统健康状况的时间序列数据。例如，某服务的工程师可能使用Datadog来回答“延迟何时开始增加？”或“除延迟外还有哪些指标异常？”等问题，以定位异常行为的根本原因。这类时间序列问答（TSQA）任务对工程师至关重要，也是SRE模型和智能体面临的重要挑战。

为此，我们推出了异常推理框架基准（ARFBench），这是一个基于Datadog内部真实事件构建的TSQA基准，使用了Datadog自身的内部遥测数据。ARFBench具有三个关键特点：首先，它使用来自生产系统的真实时间序列数据；其次，每个问答示例都基于专家标注和额外上下文；第三，任务设计测试组合推理能力，问题分为三个难度递增的层级，高层级任务依赖低层级的正确推理。

ARFBench包含750个问答对，来自142个时间序列和63个事件。时间序列最多有2283个变量和4万个时间步，这对上下文有限的模型构成了挑战。为构建ARFBench，我们搭建了一个VLM流水线，从内部事件讨论线程中提取时间序列图表，生成并筛选问答对，然后人工验证每个问题的正确性和隐私性。

我们评估了三类现有模型：处理文本时间序列的LLM、处理图表图像的VLM以及使用时间序列编码器的TSFM。结果显示，现有模型中GPT-5（VLM）表现最佳，准确率62.7%，F1分数51.9%，但远低于领域专家（准确率71.5%）。有趣的是，开源模型在某些情况下优于较旧的商业模型。

为解决纯视觉和文本表示的局限性，我们训练了一个混合模型，结合了最先进的观测TSFM Toto与开源VLM Qwen3-VL 32B。经过多阶段后训练（包括监督微调和强化学习），得到的Toto-1.0-QA-Experimental模型在ARFBench上取得了最高准确率63.9%，并在异常识别任务中显著领先，F1分数比最佳模型高出8.8个百分点。该模型参数量远低于前沿模型，推理时更具效率。

我们观察到，最佳模型与人类专家在单个问题上的错误模式差异显著。GPT-5正确回答了48%两位专家都答错的问题（这些错误多涉及指令遵循或精细感知），而至少一位专家正确回答了79%GPT-5答错的问题（模型错误多涉及幻觉或领域知识缺失）。基于这种互补性，我们计算了模型-专家联合预测的“神谕”指标，准确率达到87.2%，F1为82.8%，远超现有模型能力，为LLM、VLM和TSFM设立了新的超人类前沿。

未来，ARFBench可评估端到端事件响应智能体的时间序列推理能力。欢迎访问Hugging Face获取基准、排行榜和模型权重，或阅读论文了解更多细节。