2026-05-15 10:31 UTC+8站内改写4 分钟阅读更新: 2026-06-27 08:25 UTC+8

ParseBench：首个面向AI代理的文档解析基准测试

ParseBench是一个全新的基准测试，旨在衡量AI代理在实际企业文档中的解析质量，涵盖表格、图表、内容忠实度、语义格式和视觉定位五个维度。通过对约2000页企业文档和超过16.7万条测试规则的评估，结果显示没有单一方法在所有方面都表现出色，但LlamaParse Agentic模式以84.9%的整体得分成为唯一在五个关键维度上均有竞争力的方法。

来源LlamaIndex Blog

文档解析（或称OCR）是所有处理真实世界文件的AI代理的基础。在代理批准索赔、分析财务报告或从合同中提取条款之前，它需要正确读取文档。不是“差不多”，不是“足够接近”，而是正确。然而，直到现在，还没有一个基准测试能够像代理实际需要的那样衡量解析质量：跨越企业文档的完整范围，并在导致下游故障的维度上进行评估。

今天我们发布了ParseBench，这是一个包含约2000页经过人工验证的企业文档和超过16.7万条测试规则的基准测试，围绕五个能力维度组织：表格、图表、内容忠实度、语义格式和视觉定位。我们评估了14种方法，涵盖视觉语言模型、专用文档解析器和LlamaParse。虽然没有任何单一方法在所有方面都表现出色，但LlamaParse Agentic是唯一在五个关键维度上均有竞争力的方法，整体得分为84.9%。

基准测试数据集、评估代码和完整的研究论文均已公开：数据集可在HuggingFace获取，代码和评估在GitHub上，论文在arXiv上。

现有基准测试的不足

人类阅读文档时可以绕过错误。一个稍微错位的表格、缺失的脚注引用、无法渲染的图表——代理（目前）无法做到这一点。批准保险索赔的代理会读取覆盖表格中的特定单元格。如果表格标题未对齐，它会读取错误的列。如果缺少小数，计算就会偏差多个数量级。OCR和文档解析的标准已从“人类可读即可”转变为“代理可可靠执行”。我们称之为语义正确性：解析输出是否保留了足够的结构和含义以支持正确的下游决策。

现有基准测试在以下两个方面没有很好地衡量这一点：

错误的文档。大多数基准测试使用学术论文、网络内容或狭窄的语料库。代表真正自动化驱动力的企业文档（财务申报、合同、监管提交）未被充分代表。即使是OmniDocBench，可用最多样化的基准测试，也只有6%的页面来自企业内容。

错误的指标。文本相似度指标（BLEU、ROUGE、编辑距离）会惩罚诸如空白或输出HTML与Markdown等表面差异，同时忽略关键错误，如转置的表格标题、被简化为原始OCR文本的图表，或无声删除的删除线。

ParseBench评估的内容

ParseBench测试五个对最终用户最重要的能力维度：

1. 表格

表格在企业文档中无处不在，而这些现实世界的表格并不是学术基准测试中的简单网格。合并单元格、分层标题、跨多页的跨度以及每页多个表格，即使是最佳的文档处理流程也会出错。

我们引入了一个新指标，称为TableRecordMatch，它将表格视为下游系统实际消费的方式：作为记录的集合，其中每行是一组按列标题索引的值。这意味着我们不会惩罚无害的差异，如列重新排序，但会严厉惩罚关键错误，如转置的标题或缺失的列名。

2. 图表

我们测试的大多数解析器要么完全跳过图表，要么输出原始OCR文本，这两者都不能为代理提供可用数据。相反，所需的是实际值及其正确的系列名称和轴标签，以便在下游工作流程中处理。

我们为每张图表标注最多10个抽查数据点，每个数据点包含数值、相关标签和容差。具有显式数值标签的图表必须完全匹配；必须从轴读取数值的图表获得1%的容差，因为像素级读取是不现实的。

3. 内容忠实度

最基本的要求：解析器是否实际捕获了所有文本，顺序正确，没有编造？我们测试三种失败模式：

遗漏：单词、句子和数字级别的文本丢失
幻觉：源文档中不存在的内容
阅读顺序违规：多列布局线性化不正确

这是通过密集的基于规则的测试（数据集中超过16.7万条规则）来评估的，而不是模糊的文本相似度。如果你的OCR丢失数据，你需要了解哪些类型的文档会触发这种情况。

4. 语义格式

大多数解析器将格式视为装饰性内容并删除它。但有些格式具有含义：

删除线价格不是当前价格
上标“1”是脚注引用，不是数字一
财务报告中的粗体文本通常标记关键聚合值
标题层级决定文档结构

如果你的代理无法区分$49.99 $39.99和“$49.99 $39.99”，它可能会引用旧价格。

5. 视觉定位

解析器能否将每个提取的元素追溯到其在页面上的源位置？这对于受监管行业中的可审计性至关重要。如果代理从保险表格中提取覆盖限额，你需要能够指出该数字在页面上的确切来源。

我们将此评估为一个联合问题：解析器必须找到正确的区域（定位）、分配正确的标签（分类）并附加正确的内容（归因）。

数据集的构建方式

所有约2000页均来自真实的、公开可用的企业文档，涵盖保险（SERFF备案）、金融（公开财务报告）、政府文档和其他领域。我们故意从简单到对抗性困难的情况进行采样。

真实标签通过两阶段流程生成：

自动标注：前沿VLM生成初始注释
人工验证：注释员审查并纠正每一页，审查工作流程针对每个维度的真实标签格式定制

ParseBench结果

我们测试了14种方法，涵盖三类：通用VLM（GPT-5 Mini、Haiku 4.5、Gemini 3 Flash、Qwen 3 VL、Dots OCR 1.5）、专用文档解析器（Textract、Azure Document Intelligence、Google Cloud Document AI、Reducto、Docling、Extend、LandingAI）以及LlamaParse（成本效益和Agentic模式）。

以下是主要结果：

图表是最大的分水岭。只有四家提供商超过50%。大多数专用解析器得分低于6%，因为它们没有将图表数据提取为结构化表格。
内容忠实度基本解决（但尚未完全）。最佳方法达到约90%，这听起来不错，但意味着代理在每10页中仍有1页遇到有意义的遗漏和幻觉。对于高风险工作流，这还不够好。ParseBench帮助我们（和我们的用户）了解哪些类型的文档需要额外注意。
格式被广泛忽略。大多数解析器将删除线、上标和粗体视为装饰性内容并删除它们。得分范围从1.0%（Docling）到85.2%（LlamaParse Agentic）。
视觉定位区分了VLM和专用解析器。GPT-5 Mini和Haiku在定位上的得分低于8%。准确的元素级定位需要空间推理，这超出了单个LLM传递的能力。与此同时，围绕布局检测构建的传统文档解析器得分在55%到80%之间。

质量与成本

我们还分析了质量-成本权衡。两个模式突出：

向VLM投入更多计算资源会带来递减的回报。Gemini从最小思考到高思考，成本增加4倍，得分仅提高约5分。GPT-5 Mini和Haiku在成本增加3-4倍的情况下，收益甚至更小。
LlamaParse位于OCR前沿。Agentic模式（约每页1.2美分，84.9%整体得分）在任意成本水平上均优于其他所有提供商。成本效益模式（约每页0.3美分，78.1%）在成本低于其他提供商的情况下，性能超过它们。

亲自尝试

要自行运行基准测试：

git clone https://github.com/run-llama/parse-bench.git
cd ParseBench

# 安装
uv sync --extra runners

# 在任何支持的流水线上运行基准测试
uv run parse-bench run

# 查看交互式报告
uv run parse-bench serve

基准测试包含90多个预配置流水线和所有评估代码。添加自己的OCR模型很简单（并且鼓励这样做！）。敬请期待即将推出的官方排行榜。

数据集：HuggingFace 代码与评估：GitHub 论文：arXiv