AI News HubLIVE
站内改写

ITBench-AA:前沿模型在企业IT智能体任务基准测试中得分低于50%——由Artificial Analysis与IBM联合发布

Artificial Analysis与IBM联合推出ITBench-AA,这是首个针对企业IT智能体任务的基准测试,专注于站点可靠性工程(SRE)。前沿模型得分均低于50%,其中Claude Opus 4.7以47%领先。该基准测试评估模型在Kubernetes事件响应中的表现,要求从日志和追踪中诊断故障。

文章情报

工程师进阶

要点

  • Claude Opus 4.7以47%领先,GPT-5.5为46%,Qwen3.7 Max为42%。
  • 所有前沿模型得分低于50%,使ITBench-AA成为饱和度最低的智能体基准之一。
  • 较长的操作轨迹并不保证更高的准确性;过度调查的模型往往产生误报。
  • 开放权重模型如Gemma 4 31B和GLM-5.1以较低成本提供有竞争力的性能。

为什么重要

这条新闻值得关注,因为Claude Opus 4.7以47%领先,GPT-5.5为46%,Qwen3.7 Max为42%。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Artificial Analysis与IBM软件创新实验室联合发布了ITBench-AA,这是首个专门评估AI模型在企业IT环境中执行智能体任务的基准测试。该基准测试从站点可靠性工程(SRE)任务开始,要求模型像运维工程师一样诊断Kubernetes集群中的故障。所有前沿模型在首次测试中得分均低于50%,突显了企业级AI智能体任务的挑战性。

在测试中,Claude Opus 4.7(自适应推理,最大努力模式)以47%的得分领先,紧随其后的是GPT-5.5(xhigh)的46%和Qwen3.7 Max的42%。值得注意的是,所有模型的得分都未超过50%,这使得ITBench-AA SRE成为目前饱和度最低的智能体基准之一。相比之下,前沿模型在Terminal-Bench等其他基准上得分要高得多。

一个有趣的发现是,操作步数(turn count)与准确性之间并不呈正相关。GPT-5.5(xhigh)平均每任务使用31步,得分46%;而Gemini 3.1 Pro Preview平均使用83步,得分仅30%。那些倾向于过度调查的模型往往会将上游故障注入机制或并发症状误判为根本原因,导致误报。

开放权重模型在成本效益方面表现出色。GLM-5.1(推理)以40%的得分领先开源模型,与Gemini 3.5 Flash(高)得分相当,但成本更低(每任务1.23美元对比1.70美元)。DeepSeek V4 Pro(推理,最大努力)得分38%,Gemma 4 31B(推理)得分37%,均超过Gemini 3.1 Pro Preview的30%。Gemma 4 31B每任务仅需0.14美元,性能却优于成本更高的Gemini 3.1 Pro Preview。

ITBench-AA SRE包含59个任务,其中40个为公开任务,19个为全新保留任务。每个任务提供一个Kubernetes故障快照,包含告警、事件、追踪、指标、日志和应用拓扑。模型必须识别出导致故障的最少独立根因Kubernetes实体。故障类型涵盖基础设施、服务、应用和混沌工程注入的典型SRE失败模式,如资源配额耗尽、回滚失败、连接池耗尽可能。

评估方法采用固定智能体框架Stirrup,模型通过shell命令访问沙盒文件系统。每个任务最多100步,重复3次。模型提交根因实体列表后,系统使用召回门控精确率(Recall-Gated Precision)评分:如果模型遗漏任何真实根因,该次得分为0;如果全部识别,则按精确率(真正例/(真正例+假正例))计分。最终分数为59个任务×3次重复的平均值。

未来,ITBench-AA将扩展至财务运维(FinOps)和首席信息安全官(CISO)任务,为企业级AI智能体评估提供更全面的视角。如需更多信息,可参阅arXiv论文或访问GitHub和Hugging Face数据集仓库。