它足够智能体化了吗?使用自有工具对开源模型进行基准测试
一个全新的基准测试框架专注于评估AI智能体使用软件库的整个过程工作量,以Hugging Face的Transformers库为案例。通过测量令牌使用量、时间、错误率等指标,揭示不同模型和工具层级下的性能权衡,为库维护者和智能体用户提供关键见解。
随着AI智能体越来越多地接管编码任务,软件库的设计不仅需要面向人类开发者,还需面向智能体。一个不直观的API或过时的文档不仅困扰人类开发者,还会使智能体花费更多时间和成本。大多数现有基准测试只关注最终答案是否正确,忽略了智能体解决问题的过程。为此,我们开发了一个新的基准测试框架,专注于测量智能体完成任务的“工作量”,包括令牌使用量、时间、错误率等指标。
我们以Hugging Face的Transformers库为例,测试了三种不同的工具层级:裸安装(仅pip install transformers)、克隆源码(将整个transformers仓库检出到工作目录)以及打包Skill(将CLI文档和任务示例打包成可加载的上下文)。这三个层级并非嵌套关系,每个层级给智能体提供不同类型的帮助。我们使用pi编码智能体驱动所有实验,并通过Hugging Face Jobs在相同硬件上并行运行所有组合,确保公平比较。
实验分为两类:针对大型开源模型,我们固定模型并改变Transformers的版本(从v5.8.0到引入CLI和Skill的提交),观察智能体的工作量变化;针对小型模型,我们固定库版本并改变模型,查看不同大小和能力模型的表现。结果显示,引入CLI和Skill后,大型模型完成任务的中位时间显著降低,但克隆层级下的令牌消耗却大幅上升——因为智能体会读取新添加的CLI代码和示例来了解接口。这一权衡值得注意:智能体在单次运行中支付了“发现成本”,但在实际应用中,这种成本会随着多次任务分摊。对于小型模型,工具的易用性更为关键:它们更容易猜测错误的API,产生不必要的工具调用,甚至给出错误答案。
该框架不仅帮助库维护者优化代码以更好地服务于智能体,也帮助用户选择适合其任务的模型。所有运行结果和追踪日志都存储在Hugging Face Bucket中,并可通过互动报告查看。我们相信,随着智能体生态的发展,面向智能体的软件设计和评估将变得越来越重要。