2026-06-30 09:27 UTC+8站内改写2 分钟阅读更新: 2026-07-02 01:35 UTC+8

基准测试智能体工具使用能力

LangChain 发布了四个新的测试环境，用于评估大型语言模型（LLM）使用工具完成任务的能力，涉及规划、函数调用和推理等关键技能。测试比较了 GPT-4、Claude 2.1、GPT-3.5 以及开源模型（如 Mistral 7b）的表现。关键发现包括：GPT-4 在关系数据任务中表现最佳，但在长时间轨迹中易出错；Claude 2.1 在三个任务中与 GPT-4 相当；开源模型在多次函数组合上表现不佳；规划能力仍是 LLM 的难点。

来源LangChain Blog

LangChain 于 2023 年 12 月 19 日发布了四个新的测试环境，旨在标准化评估大型语言模型（LLM）在使用工具完成任务方面的表现。这些测试环境专注于代理工作流中的关键能力，包括规划与任务分解、函数调用以及必要时克服预训练偏差的能力。

四项测试任务

打字机（单一工具）：智能体需使用一个单一工具依次输入指定单词的每个字母。任务看似简单，但实验发现即使是 GPT-4 也会出错，例如拒绝输入“keyboard”或无法识别单词“head”。
打字机（26 个工具）：智能体需从 26 个工具中选择正确的工具，每个工具对应一个英文字母。该任务容易触发模型的异常行为，导致多家模型的性能显著下降。
关系数据：智能体需根据三张关系表中的信息回答问题。这是最接近真实应用场景的任务，需要智能体理解函数间的依赖关系。例如，要回答“Alice 是否需要带伞？”，智能体必须依次查询用户信息、用户位置和所在地天气。
多宇宙数学：智能体需使用工具解决数学问题，但底层数学规则已发生微小变化，以测试模型能否克服预训练偏差。

测试结果与关键发现

实验测试了多个模型，包括 OpenAI 的 GPT-3.5 和 GPT-4（多个版本）、Anthropic 的 Claude 2.1，以及开源模型如 Mistral 7b（由 Anyscale 微调）和 Mixtral 8x7b（由 Fireworks.ai 微调）。主要结果如下：

GPT-4 在关系数据任务中表现最佳，几乎解答了所有 20 个问题，但仍在个别案例中失败，例如将“Frank”误认为猫而非用户。
Claude 2.1 在三个任务中与 GPT-4 处于同一误差范围内，但在关系数据任务中略逊一筹。
GPT-3.5 在多宇宙数学任务中反而优于 GPT-4，这可能是因为 GPT-4 更强的预训练偏差干扰了其对规则变化的适应能力。
开源模型的差距明显。Mistral 7b 虽然能正确输出工具调用格式，但难以可靠地组合两次以上的函数调用。未来开源模型在函数调用方面的改进应重点关注函数组合能力。
规划仍是 LLM 的软肋。随着任务步骤增加，失败概率直线上升，即使对简单任务也是如此。

评估指标

研究采用了四种指标：

正确性：与标准答案对比，使用 LLM 作为裁判。
最终环境状态：检查最终世界状态是否正确。
中间步骤准确性：检查函数调用顺序是否与最优序列一致。
步骤数量比：实际步骤与期望步骤的比例。

启示与建议

模型在训练中获取的超人知识未必能迁移到新任务。在部署前，必须验证 LLM 是否擅长你需要的具体行为模式。
规划对 LLM 仍然困难，步骤越多，失败概率越高。
函数调用能保证 100% 的模式正确性，但不足以确保任务正确。若需微调模型用于代理，必须训练其处理多步骤轨迹。

总体而言，这些基准测试揭示了当前 LLM 在工具使用方面的潜力与局限，为开发者选择模型和设计代理工作流提供了重要参考。