ITBench-AA:前沿模型在企業IT智能體任務基準測試中得分低於50%——由Artificial Analysis與IBM聯合發佈
Artificial Analysis與IBM聯合推出ITBench-AA,這是首個針對企業IT智能體任務的基準測試,專注於站點可靠性工程(SRE)。前沿模型得分均低於50%,其中Claude Opus 4.7以47%領先。該基準測試評估模型在Kubernetes事件響應中的表現,要求從日誌和追蹤中診斷故障。
文章情報
要點
- Claude Opus 4.7以47%領先,GPT-5.5為46%,Qwen3.7 Max為42%。
- 所有前沿模型得分低於50%,使ITBench-AA成為飽和度最低的智能體基準之一。
- 較長的操作軌跡並不保證更高的準確性;過度調查的模型往往產生誤報。
- 開放權重模型如Gemma 4 31B和GLM-5.1以較低成本提供有競爭力的性能。
為甚麼重要
這條新聞值得關注,因為Claude Opus 4.7以47%領先,GPT-5.5為46%,Qwen3.7 Max為42%。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Artificial Analysis與IBM軟件創新實驗室聯合發佈了ITBench-AA,這是首個專門評估AI模型在企業IT環境中執行智能體任務的基準測試。該基準測試從站點可靠性工程(SRE)任務開始,要求模型像運維工程師一樣診斷Kubernetes集羣中的故障。所有前沿模型在首次測試中得分均低於50%,突顯了企業級AI智能體任務的挑戰性。
在測試中,Claude Opus 4.7(自適應推理,最大努力模式)以47%的得分領先,緊隨其後的是GPT-5.5(xhigh)的46%和Qwen3.7 Max的42%。值得注意的是,所有模型的得分都未超過50%,這使得ITBench-AA SRE成為目前飽和度最低的智能體基準之一。相比之下,前沿模型在Terminal-Bench等其他基準上得分要高得多。
一個有趣的發現是,操作步數(turn count)與準確性之間並不呈正相關。GPT-5.5(xhigh)平均每任務使用31步,得分46%;而Gemini 3.1 Pro Preview平均使用83步,得分僅30%。那些傾向於過度調查的模型往往會將上游故障注入機制或併發症狀誤判為根本原因,導致誤報。
開放權重模型在成本效益方面表現出色。GLM-5.1(推理)以40%的得分領先開源模型,與Gemini 3.5 Flash(高)得分相當,但成本更低(每任務1.23美元對比1.70美元)。DeepSeek V4 Pro(推理,最大努力)得分38%,Gemma 4 31B(推理)得分37%,均超過Gemini 3.1 Pro Preview的30%。Gemma 4 31B每任務僅需0.14美元,性能卻優於成本更高的Gemini 3.1 Pro Preview。
ITBench-AA SRE包含59個任務,其中40個為公開任務,19個為全新保留任務。每個任務提供一個Kubernetes故障快照,包含告警、事件、追蹤、指標、日誌和應用拓撲。模型必須識別出導致故障的最少獨立根因Kubernetes實體。故障類型涵蓋基礎設施、服務、應用和混沌工程注入的典型SRE失敗模式,如資源配額耗盡、回滾失敗、連接池耗盡可能。
評估方法採用固定智能體框架Stirrup,模型通過shell命令訪問沙盒文件系統。每個任務最多100步,重複3次。模型提交根因實體列表後,系統使用召回門控精確率(Recall-Gated Precision)評分:如果模型遺漏任何真實根因,該次得分為0;如果全部識別,則按精確率(真正例/(真正例+假正例))計分。最終分數為59個任務×3次重複的平均值。
未來,ITBench-AA將擴展至財務運維(FinOps)和首席信息安全官(CISO)任務,為企業級AI智能體評估提供更全面的視角。如需更多信息,可參閲arXiv論文或訪問GitHub和Hugging Face數據集倉庫。