AI News HubLIVE
站内改写2 分钟阅读

基准测试智能体工具使用能力

LangChain 发布了四个新的测试环境,用于评估大型语言模型(LLM)使用工具完成任务的能力,涉及规划、函数调用和推理等关键技能。测试比较了 GPT-4、Claude 2.1、GPT-3.5 以及开源模型(如 Mistral 7b)的表现。关键发现包括:GPT-4 在关系数据任务中表现最佳,但在长时间轨迹中易出错;Claude 2.1 在三个任务中与 GPT-4 相当;开源模型在多次函数组合上表现不佳;规划能力仍是 LLM 的难点。

LangChain 于 2023 年 12 月 19 日发布了四个新的测试环境,旨在标准化评估大型语言模型(LLM)在使用工具完成任务方面的表现。这些测试环境专注于代理工作流中的关键能力,包括规划与任务分解、函数调用以及必要时克服预训练偏差的能力。

四项测试任务

  1. 打字机(单一工具):智能体需使用一个单一工具依次输入指定单词的每个字母。任务看似简单,但实验发现即使是 GPT-4 也会出错,例如拒绝输入“keyboard”或无法识别单词“head”。
  2. 打字机(26 个工具):智能体需从 26 个工具中选择正确的工具,每个工具对应一个英文字母。该任务容易触发模型的异常行为,导致多家模型的性能显著下降。
  3. 关系数据:智能体需根据三张关系表中的信息回答问题。这是最接近真实应用场景的任务,需要智能体理解函数间的依赖关系。例如,要回答“Alice 是否需要带伞?”,智能体必须依次查询用户信息、用户位置和所在地天气。
  4. 多宇宙数学:智能体需使用工具解决数学问题,但底层数学规则已发生微小变化,以测试模型能否克服预训练偏差。

测试结果与关键发现

实验测试了多个模型,包括 OpenAI 的 GPT-3.5 和 GPT-4(多个版本)、Anthropic 的 Claude 2.1,以及开源模型如 Mistral 7b(由 Anyscale 微调)和 Mixtral 8x7b(由 Fireworks.ai 微调)。主要结果如下:

  • GPT-4 在关系数据任务中表现最佳,几乎解答了所有 20 个问题,但仍在个别案例中失败,例如将“Frank”误认为猫而非用户。
  • Claude 2.1 在三个任务中与 GPT-4 处于同一误差范围内,但在关系数据任务中略逊一筹。
  • GPT-3.5 在多宇宙数学任务中反而优于 GPT-4,这可能是因为 GPT-4 更强的预训练偏差干扰了其对规则变化的适应能力。
  • 开源模型的差距明显。Mistral 7b 虽然能正确输出工具调用格式,但难以可靠地组合两次以上的函数调用。未来开源模型在函数调用方面的改进应重点关注函数组合能力。
  • 规划仍是 LLM 的软肋。随着任务步骤增加,失败概率直线上升,即使对简单任务也是如此。

评估指标

研究采用了四种指标:

  • 正确性:与标准答案对比,使用 LLM 作为裁判。
  • 最终环境状态:检查最终世界状态是否正确。
  • 中间步骤准确性:检查函数调用顺序是否与最优序列一致。
  • 步骤数量比:实际步骤与期望步骤的比例。

启示与建议

  • 模型在训练中获取的超人知识未必能迁移到新任务。在部署前,必须验证 LLM 是否擅长你需要的具体行为模式。
  • 规划对 LLM 仍然困难,步骤越多,失败概率越高。
  • 函数调用能保证 100% 的模式正确性,但不足以确保任务正确。若需微调模型用于代理,必须训练其处理多步骤轨迹。

总体而言,这些基准测试揭示了当前 LLM 在工具使用方面的潜力与局限,为开发者选择模型和设计代理工作流提供了重要参考。