ParseBench:首个面向AI代理的文档解析基准测试
ParseBench是一个全新的基准测试,旨在衡量AI代理在实际企业文档中的解析质量,涵盖表格、图表、内容忠实度、语义格式和视觉定位五个维度。通过对约2000页企业文档和超过16.7万条测试规则的评估,结果显示没有单一方法在所有方面都表现出色,但LlamaParse Agentic模式以84.9%的整体得分成为唯一在五个关键维度上均有竞争力的方法。
文档解析(或称OCR)是所有处理真实世界文件的AI代理的基础。在代理批准索赔、分析财务报告或从合同中提取条款之前,它需要正确读取文档。不是“差不多”,不是“足够接近”,而是正确。然而,直到现在,还没有一个基准测试能够像代理实际需要的那样衡量解析质量:跨越企业文档的完整范围,并在导致下游故障的维度上进行评估。
今天我们发布了ParseBench,这是一个包含约2000页经过人工验证的企业文档和超过16.7万条测试规则的基准测试,围绕五个能力维度组织:表格、图表、内容忠实度、语义格式和视觉定位。我们评估了14种方法,涵盖视觉语言模型、专用文档解析器和LlamaParse。虽然没有任何单一方法在所有方面都表现出色,但LlamaParse Agentic是唯一在五个关键维度上均有竞争力的方法,整体得分为84.9%。
基准测试数据集、评估代码和完整的研究论文均已公开:数据集可在HuggingFace获取,代码和评估在GitHub上,论文在arXiv上。
现有基准测试的不足
人类阅读文档时可以绕过错误。一个稍微错位的表格、缺失的脚注引用、无法渲染的图表——代理(目前)无法做到这一点。批准保险索赔的代理会读取覆盖表格中的特定单元格。如果表格标题未对齐,它会读取错误的列。如果缺少小数,计算就会偏差多个数量级。OCR和文档解析的标准已从“人类可读即可”转变为“代理可可靠执行”。我们称之为语义正确性:解析输出是否保留了足够的结构和含义以支持正确的下游决策。
现有基准测试在以下两个方面没有很好地衡量这一点:
错误的文档。大多数基准测试使用学术论文、网络内容或狭窄的语料库。代表真正自动化驱动力的企业文档(财务申报、合同、监管提交)未被充分代表。即使是OmniDocBench,可用最多样化的基准测试,也只有6%的页面来自企业内容。
错误的指标。文本相似度指标(BLEU、ROUGE、编辑距离)会惩罚诸如空白或输出HTML与Markdown等表面差异,同时忽略关键错误,如转置的表格标题、被简化为原始OCR文本的图表,或无声删除的删除线。
ParseBench评估的内容
ParseBench测试五个对最终用户最重要的能力维度:
1. 表格
表格在企业文档中无处不在,而这些现实世界的表格并不是学术基准测试中的简单网格。合并单元格、分层标题、跨多页的跨度以及每页多个表格,即使是最佳的文档处理流程也会出错。
我们引入了一个新指标,称为TableRecordMatch,它将表格视为下游系统实际消费的方式:作为记录的集合,其中每行是一组按列标题索引的值。这意味着我们不会惩罚无害的差异,如列重新排序,但会严厉惩罚关键错误,如转置的标题或缺失的列名。
2. 图表
我们测试的大多数解析器要么完全跳过图表,要么输出原始OCR文本,这两者都不能为代理提供可用数据。相反,所需的是实际值及其正确的系列名称和轴标签,以便在下游工作流程中处理。
我们为每张图表标注最多10个抽查数据点,每个数据点包含数值、相关标签和容差。具有显式数值标签的图表必须完全匹配;必须从轴读取数值的图表获得1%的容差,因为像素级读取是不现实的。
3. 内容忠实度
最基本的要求:解析器是否实际捕获了所有文本,顺序正确,没有编造?我们测试三种失败模式:
- 遗漏:单词、句子和数字级别的文本丢失
- 幻觉:源文档中不存在的内容
- 阅读顺序违规:多列布局线性化不正确
这是通过密集的基于规则的测试(数据集中超过16.7万条规则)来评估的,而不是模糊的文本相似度。如果你的OCR丢失数据,你需要了解哪些类型的文档会触发这种情况。
4. 语义格式
大多数解析器将格式视为装饰性内容并删除它。但有些格式具有含义:
- 删除线价格不是当前价格
- 上标“1”是脚注引用,不是数字一
- 财务报告中的粗体文本通常标记关键聚合值
- 标题层级决定文档结构
如果你的代理无法区分$49.99 $39.99和“$49.99 $39.99”,它可能会引用旧价格。
5. 视觉定位
解析器能否将每个提取的元素追溯到其在页面上的源位置?这对于受监管行业中的可审计性至关重要。如果代理从保险表格中提取覆盖限额,你需要能够指出该数字在页面上的确切来源。
我们将此评估为一个联合问题:解析器必须找到正确的区域(定位)、分配正确的标签(分类)并附加正确的内容(归因)。
数据集的构建方式
所有约2000页均来自真实的、公开可用的企业文档,涵盖保险(SERFF备案)、金融(公开财务报告)、政府文档和其他领域。我们故意从简单到对抗性困难的情况进行采样。
真实标签通过两阶段流程生成:
- 自动标注:前沿VLM生成初始注释
- 人工验证:注释员审查并纠正每一页,审查工作流程针对每个维度的真实标签格式定制
ParseBench结果
我们测试了14种方法,涵盖三类:通用VLM(GPT-5 Mini、Haiku 4.5、Gemini 3 Flash、Qwen 3 VL、Dots OCR 1.5)、专用文档解析器(Textract、Azure Document Intelligence、Google Cloud Document AI、Reducto、Docling、Extend、LandingAI)以及LlamaParse(成本效益和Agentic模式)。
以下是主要结果:
- 图表是最大的分水岭。只有四家提供商超过50%。大多数专用解析器得分低于6%,因为它们没有将图表数据提取为结构化表格。
- 内容忠实度基本解决(但尚未完全)。最佳方法达到约90%,这听起来不错,但意味着代理在每10页中仍有1页遇到有意义的遗漏和幻觉。对于高风险工作流,这还不够好。ParseBench帮助我们(和我们的用户)了解哪些类型的文档需要额外注意。
- 格式被广泛忽略。大多数解析器将删除线、上标和粗体视为装饰性内容并删除它们。得分范围从1.0%(Docling)到85.2%(LlamaParse Agentic)。
- 视觉定位区分了VLM和专用解析器。GPT-5 Mini和Haiku在定位上的得分低于8%。准确的元素级定位需要空间推理,这超出了单个LLM传递的能力。与此同时,围绕布局检测构建的传统文档解析器得分在55%到80%之间。
质量与成本
我们还分析了质量-成本权衡。两个模式突出:
- 向VLM投入更多计算资源会带来递减的回报。Gemini从最小思考到高思考,成本增加4倍,得分仅提高约5分。GPT-5 Mini和Haiku在成本增加3-4倍的情况下,收益甚至更小。
- LlamaParse位于OCR前沿。Agentic模式(约每页1.2美分,84.9%整体得分)在任意成本水平上均优于其他所有提供商。成本效益模式(约每页0.3美分,78.1%)在成本低于其他提供商的情况下,性能超过它们。
亲自尝试
要自行运行基准测试:
git clone https://github.com/run-llama/parse-bench.git
cd ParseBench
# 安装
uv sync --extra runners
# 在任何支持的流水线上运行基准测试
uv run parse-bench run
# 查看交互式报告
uv run parse-bench serve基准测试包含90多个预配置流水线和所有评估代码。添加自己的OCR模型很简单(并且鼓励这样做!)。敬请期待即将推出的官方排行榜。
数据集:HuggingFace 代码与评估:GitHub 论文:arXiv