2026-05-18 22:12 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

开放智能体排行榜

IBM研究团队推出开放智能体排行榜（Open Agent Leaderboard），这是一个用于比较完整智能体系统（而不仅仅是模型）的开放基准。它评估智能体在多种真实场景中的通用性，并同时报告质量和成本。该排行榜结合了六个基准测试，涵盖编码、客服、技术支持和研究等任务。初步结果显示，通用智能体已能与专用系统媲美，且智能体架构对结果的影响日益显著。所有代码、数据和论文均已开源。

来源Hugging Face Blog

IBM研究团队今日发布了开放智能体排行榜（Open Agent Leaderboard），这是一个旨在评估和比较完整AI智能体系统性能的开放基准。与通常只关注模型分数的传统评测不同，该排行榜将智能体视为一个由模型、工具使用、规划、记忆和错误恢复等模块组成的整体系统，并同时衡量其质量和运行成本。

研究团队指出，AI智能体的实际效果不仅取决于内部模型，更取决于整个系统的构建方式。相同的模型在不同的智能体框架下可能产生截然不同的结果和成本。因此，该排行榜的每个条目都是一个完整的智能体系统配置（特定智能体搭配特定模型），并展示其在所有六个基准测试中的平均成功率、每次任务的平均成本以及每个基准的详细得分。

排行榜目前涵盖6个基准：SWE-Bench Verified（修复真实代码仓库中的错误）、BrowseComp+（通过网络进行复杂研究）、AppWorld（跨数百个应用完成个人任务）、tau2-Bench航空与零售（遵循公司政策的客服）以及tau2-Bench电信（技术支持）。这些基准被特意选择以覆盖编码、客服、技术支持和研究等多样化的真实场景。

为了统一这些基准，研究团队设计了一个通用协议，将每个任务标准化为“任务（做什么）、上下文（知道什么）、动作集合（允许做什么）”的结构，使不同智能体可以通过统一接口与各基准交互，而不必适配每个基准的独特格式。

排行榜的初步结果带来了几个重要发现。首先，通用智能体已具备竞争力：在多个基准上，未经针对特定基准优化的通用智能体系统，其表现与专门为该任务设计的专用系统相当甚至更优。其次，不同智能体的失败模式差异很大——有些快速廉价地失败，有些则消耗大量时间和资源后才放弃。实验中，失败运行的成本比成功运行高出20%至54%，这意味着在生产环境中，失败行为对总账单的影响与成功同样重要。

研究还揭示，模型选择仍是决定性能的首要因素，但智能体架构的作用正变得越来越明显。特别是工具筛选（帮助智能体聚焦于相关工具而非全局搜索）能够显著提升所有测试模型的表现，甚至将原本无效的配置转变为可行的方案。

目前排行榜上五种模型（包括两种开放权重模型DeepSeek V3.2和Kimi K2.5）的结果显示，开放权重模型在特定组合上表现不错，但整体平均落后于前沿闭源模型18至29个百分点。

所有相关资源均已开源：排行榜网站供浏览结果，Exgentic框架供复现评测，以及一篇详细介绍方法和实证分析的论文。研究团队邀请社区贡献新的智能体、基准和模型，以共同将这一标准发展壮大。

开放智能体排行榜的推出，标志着AI智能体评估从“模型中心”转向“系统中心”的重要一步。随着智能体系统日益复杂，这种全面、透明的评估方式对于推动该领域的健康发展至关重要。