2026-06-18站内改写1 分钟阅读更新: 2026-06-18

它足够智能体化了吗？使用自有工具对开源模型进行基准测试

一个全新的基准测试框架专注于评估AI智能体使用软件库的整个过程工作量，以Hugging Face的Transformers库为案例。通过测量令牌使用量、时间、错误率等指标，揭示不同模型和工具层级下的性能权衡，为库维护者和智能体用户提供关键见解。

来源Hugging Face Blog

随着AI智能体越来越多地接管编码任务，软件库的设计不仅需要面向人类开发者，还需面向智能体。一个不直观的API或过时的文档不仅困扰人类开发者，还会使智能体花费更多时间和成本。大多数现有基准测试只关注最终答案是否正确，忽略了智能体解决问题的过程。为此，我们开发了一个新的基准测试框架，专注于测量智能体完成任务的“工作量”，包括令牌使用量、时间、错误率等指标。

我们以Hugging Face的Transformers库为例，测试了三种不同的工具层级：裸安装（仅pip install transformers）、克隆源码（将整个transformers仓库检出到工作目录）以及打包Skill（将CLI文档和任务示例打包成可加载的上下文）。这三个层级并非嵌套关系，每个层级给智能体提供不同类型的帮助。我们使用pi编码智能体驱动所有实验，并通过Hugging Face Jobs在相同硬件上并行运行所有组合，确保公平比较。

实验分为两类：针对大型开源模型，我们固定模型并改变Transformers的版本（从v5.8.0到引入CLI和Skill的提交），观察智能体的工作量变化；针对小型模型，我们固定库版本并改变模型，查看不同大小和能力模型的表现。结果显示，引入CLI和Skill后，大型模型完成任务的中位时间显著降低，但克隆层级下的令牌消耗却大幅上升——因为智能体会读取新添加的CLI代码和示例来了解接口。这一权衡值得注意：智能体在单次运行中支付了“发现成本”，但在实际应用中，这种成本会随着多次任务分摊。对于小型模型，工具的易用性更为关键：它们更容易猜测错误的API，产生不必要的工具调用，甚至给出错误答案。

该框架不仅帮助库维护者优化代码以更好地服务于智能体，也帮助用户选择适合其任务的模型。所有运行结果和追踪日志都存储在Hugging Face Bucket中，并可通过互动报告查看。我们相信，随着智能体生态的发展，面向智能体的软件设计和评估将变得越来越重要。