AI News HubLIVE
站内改写2 分钟阅读

提取基准测试:比较GPT-4、Claude和开源LLM在从聊天日志中提取结构化数据的能力

LangChain发布了一个新的提取基准数据集,用于评估LLM从聊天日志中推断结构化信息的能力。文章详细介绍了数据集的创建过程、评估指标以及对GPT-4、Claude-2、Code Llama 2等模型的基准测试结果。实验表明,GPT-4在多数指标上表现最佳,而开源模型在结构化输出方面仍有挑战。

两周前,LangChain发布了langchain-benchmarks包和一个基于LangChain文档的问答数据集。今天,我们推出一个新的提取数据集,用于衡量LLM从聊天日志中推断正确结构化信息的能力。

这个新数据集提供了一个实用环境,用于测试LLM应用开发中的常见挑战,例如分类非结构化文本、生成机器可读信息,以及在干扰信息下处理多个任务。

本文将介绍我们如何创建该数据集,并分享一些初步的基准测试结果。

创建数据集的动机

我们希望围绕一个真实世界的问题设计数据集模式:从聊天机器人交互中提取结构化见解。今年夏天,我们的实习生Molly帮助我们刷新了Chat LangChain(一个基于LangChain Python文档的检索增强生成应用)。这是一个“带搜索引擎的LLM”,用户可以询问“如何向代理添加记忆?”等问题,它会根据文档中的内容给出答案。

这类项目的真正考验是在部署之后,当你开始观察其使用情况并进一步优化时。通常,用户不会提供明确的反馈,但他们的对话揭示了大量信息。虽然可以仅将日志“放入LLM”进行总结,但提取结构化内容来进行监控和分析往往更有效。这可以驱动分析仪表板或微调数据收集流水线,因为结构化值容易被传统软件使用。

聊天提取数据集的设计目的是测试当前一批LLM从这类数据中提取和分类相关信息的能力。

创建数据集

创建数据集的主要步骤包括:确定表示结构化输出的数据模型,用问答对进行种子化,使用LLM生成候选答案,然后人工审核结果并更新分类体系。LangChain长期提供合成数据集生成工具来帮助启动数据,但最终版本始终需要一定程度的人工审核以确保质量。

一旦有了初始数据集,你可以将标注数据作为种子生成模型中的少量示例,以提高提供给人类审核的数据的质量。

提取模式

我们希望任务既有可处理性,又能对当前常见模型构成挑战。我们使用一个链式Pydantic模型定义了模式。一个示例如下:

{ "GenerateTicket": { "question": { "toxicity": 0, "sentiment": "Neutral", "is_off_topic": false, "question_category": "Function Calling", "programming_language": "unknown" }, "response": { "response_type": "provide guidance", "confidence_level": 5, "followup_actions": [ "Check with API provider for function calling support." ] }, "issue_summary": "Function Calling Format Validation" } }

该模式具有几个挑战:包含较长的枚举值,对象嵌套,每个嵌套组件中的值需要从输入的对应部分推断,以及结合了分类、摘要和结构化输出生成。

评估

此基准侧重于结构和分类,因此不需要使用LLM作为评判的指标。我们编写了自定义的LangSmith评估器,测量以下内容:

  • 结构验证:JSON模式合规性。
  • 分类任务:问题类别、离题性、毒性、编程语言、置信度、情感等。
  • 整体差异:JSON编辑距离。

实验

我们评估了gpt-4-1106-preview、claude-2、llama-v2-34b-code-instruct、llama-v2-chat-70b和yi-34b-200k-capybara。

实验1:GPT-4与Claude-2对比。GPT-4使用工具调用API,Claude-2使用JSON模式或XSD提示。结果显示GPT-4在所有指标上几乎都领先,且能完美输出JSON模式。Claude-2则存在格式不一致问题。

实验2:开源模型基线。Yi-34b和Code Llama 2在JSON合规性上优于Llama 2 70B,但整体表现仍远低于闭源模型。Code Llama 2在多数指标上相对更好。

实验3:提示策略以改进模式合规性。我们测试了额外指令、链式思考和少量示例三种策略,发现对Code Llama 2的帮助有限。

总之,该基准突显了当前模型在结构化提取上的差距,为未来改进提供了方向。