开放智能体排行榜
IBM研究团队推出开放智能体排行榜(Open Agent Leaderboard),这是一个用于比较完整智能体系统(而不仅仅是模型)的开放基准。它评估智能体在多种真实场景中的通用性,并同时报告质量和成本。该排行榜结合了六个基准测试,涵盖编码、客服、技术支持和研究等任务。初步结果显示,通用智能体已能与专用系统媲美,且智能体架构对结果的影响日益显著。所有代码、数据和论文均已开源。
文章情报
要点
- 开放智能体排行榜衡量的是完整智能体系统(模型+工具+规划等),而非仅模型本身。
- 排行榜包含六个不同领域的基准测试,如SWE-Bench Verified和BrowseComp+。
- 通用智能体已在多个任务上达到或超越专用系统的表现。
- 智能体架构(如工具筛选)对性能和成本有重大影响。
为什么重要
这条新闻值得关注,因为开放智能体排行榜衡量的是完整智能体系统(模型+工具+规划等),而非仅模型本身。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
IBM研究团队今日发布了开放智能体排行榜(Open Agent Leaderboard),这是一个旨在评估和比较完整AI智能体系统性能的开放基准。与通常只关注模型分数的传统评测不同,该排行榜将智能体视为一个由模型、工具使用、规划、记忆和错误恢复等模块组成的整体系统,并同时衡量其质量和运行成本。
研究团队指出,AI智能体的实际效果不仅取决于内部模型,更取决于整个系统的构建方式。相同的模型在不同的智能体框架下可能产生截然不同的结果和成本。因此,该排行榜的每个条目都是一个完整的智能体系统配置(特定智能体搭配特定模型),并展示其在所有六个基准测试中的平均成功率、每次任务的平均成本以及每个基准的详细得分。
排行榜目前涵盖6个基准:SWE-Bench Verified(修复真实代码仓库中的错误)、BrowseComp+(通过网络进行复杂研究)、AppWorld(跨数百个应用完成个人任务)、tau2-Bench航空与零售(遵循公司政策的客服)以及tau2-Bench电信(技术支持)。这些基准被特意选择以覆盖编码、客服、技术支持和研究等多样化的真实场景。
为了统一这些基准,研究团队设计了一个通用协议,将每个任务标准化为“任务(做什么)、上下文(知道什么)、动作集合(允许做什么)”的结构,使不同智能体可以通过统一接口与各基准交互,而不必适配每个基准的独特格式。
排行榜的初步结果带来了几个重要发现。首先,通用智能体已具备竞争力:在多个基准上,未经针对特定基准优化的通用智能体系统,其表现与专门为该任务设计的专用系统相当甚至更优。其次,不同智能体的失败模式差异很大——有些快速廉价地失败,有些则消耗大量时间和资源后才放弃。实验中,失败运行的成本比成功运行高出20%至54%,这意味着在生产环境中,失败行为对总账单的影响与成功同样重要。
研究还揭示,模型选择仍是决定性能的首要因素,但智能体架构的作用正变得越来越明显。特别是工具筛选(帮助智能体聚焦于相关工具而非全局搜索)能够显著提升所有测试模型的表现,甚至将原本无效的配置转变为可行的方案。
目前排行榜上五种模型(包括两种开放权重模型DeepSeek V3.2和Kimi K2.5)的结果显示,开放权重模型在特定组合上表现不错,但整体平均落后于前沿闭源模型18至29个百分点。
所有相关资源均已开源:排行榜网站供浏览结果,Exgentic框架供复现评测,以及一篇详细介绍方法和实证分析的论文。研究团队邀请社区贡献新的智能体、基准和模型,以共同将这一标准发展壮大。
开放智能体排行榜的推出,标志着AI智能体评估从“模型中心”转向“系统中心”的重要一步。随着智能体系统日益复杂,这种全面、透明的评估方式对于推动该领域的健康发展至关重要。