前沿模型虽强,但文档解析更难 | Unstructured
Unstructured使用SCORE-Bench基准测试评估了五种前沿模型在企业文档解析上的表现,发现原始模型调用与优化管线之间存在显著差距。尽管模型在推理和幻觉控制(尤其Claude Opus 4.6)上表现强劲,但在表格提取、文档结构和输出一致性方面仍落后于专业管线,差距高达23个百分点。文章指出,差距并非能力问题,而是配置问题,通过优化提示、后处理和输出结构约束可以有效弥合。
Unstructured近日发布了一项针对前沿模型在企业文档解析能力上的基准测试,结果令人深思:尽管当前最先进的模型在综合推理基准上接近人类专家水平,但要真正处理真实的商业文档(如发票、财报、合同等),它们与专业优化管线之间仍存在显著差距。
测试采用SCORE-Bench,这是一个包含224份真实企业文档的开放基准,涵盖歪斜扫描的发票、嵌套表格的财务报告、复杂多栏布局的技术文档等。测试对象包括Claude Opus 4.6、GPT-5.2、Claude Sonnet 4、GPT-5-mini和Gemini 2.5 Pro,均使用简单提取提示且无额外配置。基线则是Unstructured的VLM Partitioner管线,该管线使用Claude Opus 4.5配合优化提示、后处理和输出结构约束。
结果显示,所有模型的综合准确率比基线低4至16个百分点。关键发现包括:
幻觉率方面,Opus 4.6表现惊艳,其幻觉率仅为0.044,几乎与基线的0.043持平。这意味着它极少捏造源文档中不存在的内容。然而,GPT-5.2(0.167)、GPT-5-mini(0.161)和Gemini 2.5 Pro(0.257)的幻觉率则高出数倍。但Opus 4.6的召回率(覆盖率)仅为0.737,是模型中最差的,导致约四分之一的内容被遗漏。这使得用户面临两难选择:低幻觉的模型会遗漏关键信息,而高覆盖率的模型则可能注入虚构数据。
表格提取是另一个重灾区。所有模型的表格提取准确率比基线低多达23个百分点。问题的核心并非读取单元格文本,而是理解行列归属。一个模型可能正确识别数字“4.2百万”,却将其放在错误的列中,导致数据表面正确但含义错误,这对财务分析等场景是致命缺陷。
文档结构是差距最大的领域。元素对齐(识别标题、段落、表格、图形并正确排序)的准确率比基线低16个百分点。错误的无声传播尤为危险:段落归属错误、图表与标题分离、子标题混入正文。当这些断章取义的内容进入RAG管道时,LLM将基于错序的上下文产生看似合理但实际错误的答案。
输出一致性方面,Gemini 2.5 Pro在5%的文档上产生了不一致的输出格式,需要额外后处理才能使用。这意味着管线无法完全自动化,必须构建降级层来处理异常。
Unstructured指出,差距并非模型能力不足,而是配置缺陷。原始模型调用只需简单提示,但文档解析的细节——合并的表格标题、文档元素顺序、内容捕获量、输出格式——均未被指定。三层优化可弥合这一差距:优化提示为模型提供结构指引;后处理规范化输出并处理边界情况;输出结构约束定义有效响应格式。每层针对一个特定失败模式:元素对齐问题源自提示不足;Opus 4.6的召回率是提示问题;Gemini的格式不一致是输出结构问题。
“这些模型很强大,但通用能力与文档解析性能是两回事,”文章总结道。“原始调用与生产级管线之间的差距真实存在,但可通过更精细的工程手段弥补。”