AI News HubLIVE
站内改写2 分钟阅读

ARFBench介绍:基于真实事件的时间序列问答基准

每年因系统故障损失超过万亿美元。为快速解决故障,工程师需要分析观测指标(时间序列数据)。ARFBench是一个基于Datadog内部真实事件的时间序列问答(TSQA)基准,评估现有AI模型在TSQA任务上的表现。研究发现,现有模型仍有较大改进空间,而混合TSFM-VLM模型展示了潜力,且人类与AI具有互补性。

来源AIhub作者: ML@CMU

每年因系统故障造成的损失超过万亿美元。为了快速排除故障,工程师必须迅速分析观测指标,即反映软件系统健康状况的时间序列数据。例如,某服务的工程师可能使用Datadog来回答“延迟何时开始增加?”或“除延迟外还有哪些指标异常?”等问题,以定位异常行为的根本原因。这类时间序列问答(TSQA)任务对工程师至关重要,也是SRE模型和智能体面临的重要挑战。

为此,我们推出了异常推理框架基准(ARFBench),这是一个基于Datadog内部真实事件构建的TSQA基准,使用了Datadog自身的内部遥测数据。ARFBench具有三个关键特点:首先,它使用来自生产系统的真实时间序列数据;其次,每个问答示例都基于专家标注和额外上下文;第三,任务设计测试组合推理能力,问题分为三个难度递增的层级,高层级任务依赖低层级的正确推理。

ARFBench包含750个问答对,来自142个时间序列和63个事件。时间序列最多有2283个变量和4万个时间步,这对上下文有限的模型构成了挑战。为构建ARFBench,我们搭建了一个VLM流水线,从内部事件讨论线程中提取时间序列图表,生成并筛选问答对,然后人工验证每个问题的正确性和隐私性。

我们评估了三类现有模型:处理文本时间序列的LLM、处理图表图像的VLM以及使用时间序列编码器的TSFM。结果显示,现有模型中GPT-5(VLM)表现最佳,准确率62.7%,F1分数51.9%,但远低于领域专家(准确率71.5%)。有趣的是,开源模型在某些情况下优于较旧的商业模型。

为解决纯视觉和文本表示的局限性,我们训练了一个混合模型,结合了最先进的观测TSFM Toto与开源VLM Qwen3-VL 32B。经过多阶段后训练(包括监督微调和强化学习),得到的Toto-1.0-QA-Experimental模型在ARFBench上取得了最高准确率63.9%,并在异常识别任务中显著领先,F1分数比最佳模型高出8.8个百分点。该模型参数量远低于前沿模型,推理时更具效率。

我们观察到,最佳模型与人类专家在单个问题上的错误模式差异显著。GPT-5正确回答了48%两位专家都答错的问题(这些错误多涉及指令遵循或精细感知),而至少一位专家正确回答了79%GPT-5答错的问题(模型错误多涉及幻觉或领域知识缺失)。基于这种互补性,我们计算了模型-专家联合预测的“神谕”指标,准确率达到87.2%,F1为82.8%,远超现有模型能力,为LLM、VLM和TSFM设立了新的超人类前沿。

未来,ARFBench可评估端到端事件响应智能体的时间序列推理能力。欢迎访问Hugging Face获取基准、排行榜和模型权重,或阅读论文了解更多细节。