2026-05-15 11:57 UTC+8站内改写2 分钟阅读更新: 2026-06-27 08:25 UTC+8

前沿模型虽强，但文档解析更难 | Unstructured

Unstructured使用SCORE-Bench基准测试评估了五种前沿模型在企业文档解析上的表现，发现原始模型调用与优化管线之间存在显著差距。尽管模型在推理和幻觉控制（尤其Claude Opus 4.6）上表现强劲，但在表格提取、文档结构和输出一致性方面仍落后于专业管线，差距高达23个百分点。文章指出，差距并非能力问题，而是配置问题，通过优化提示、后处理和输出结构约束可以有效弥合。

来源Unstructured Blog

Unstructured近日发布了一项针对前沿模型在企业文档解析能力上的基准测试，结果令人深思：尽管当前最先进的模型在综合推理基准上接近人类专家水平，但要真正处理真实的商业文档（如发票、财报、合同等），它们与专业优化管线之间仍存在显著差距。

测试采用SCORE-Bench，这是一个包含224份真实企业文档的开放基准，涵盖歪斜扫描的发票、嵌套表格的财务报告、复杂多栏布局的技术文档等。测试对象包括Claude Opus 4.6、GPT-5.2、Claude Sonnet 4、GPT-5-mini和Gemini 2.5 Pro，均使用简单提取提示且无额外配置。基线则是Unstructured的VLM Partitioner管线，该管线使用Claude Opus 4.5配合优化提示、后处理和输出结构约束。

结果显示，所有模型的综合准确率比基线低4至16个百分点。关键发现包括：

幻觉率方面，Opus 4.6表现惊艳，其幻觉率仅为0.044，几乎与基线的0.043持平。这意味着它极少捏造源文档中不存在的内容。然而，GPT-5.2（0.167）、GPT-5-mini（0.161）和Gemini 2.5 Pro（0.257）的幻觉率则高出数倍。但Opus 4.6的召回率（覆盖率）仅为0.737，是模型中最差的，导致约四分之一的内容被遗漏。这使得用户面临两难选择：低幻觉的模型会遗漏关键信息，而高覆盖率的模型则可能注入虚构数据。

表格提取是另一个重灾区。所有模型的表格提取准确率比基线低多达23个百分点。问题的核心并非读取单元格文本，而是理解行列归属。一个模型可能正确识别数字“4.2百万”，却将其放在错误的列中，导致数据表面正确但含义错误，这对财务分析等场景是致命缺陷。

文档结构是差距最大的领域。元素对齐（识别标题、段落、表格、图形并正确排序）的准确率比基线低16个百分点。错误的无声传播尤为危险：段落归属错误、图表与标题分离、子标题混入正文。当这些断章取义的内容进入RAG管道时，LLM将基于错序的上下文产生看似合理但实际错误的答案。

输出一致性方面，Gemini 2.5 Pro在5%的文档上产生了不一致的输出格式，需要额外后处理才能使用。这意味着管线无法完全自动化，必须构建降级层来处理异常。

Unstructured指出，差距并非模型能力不足，而是配置缺陷。原始模型调用只需简单提示，但文档解析的细节——合并的表格标题、文档元素顺序、内容捕获量、输出格式——均未被指定。三层优化可弥合这一差距：优化提示为模型提供结构指引；后处理规范化输出并处理边界情况；输出结构约束定义有效响应格式。每层针对一个特定失败模式：元素对齐问题源自提示不足；Opus 4.6的召回率是提示问题；Gemini的格式不一致是输出结构问题。

“这些模型很强大，但通用能力与文档解析性能是两回事，”文章总结道。“原始调用与生产级管线之间的差距真实存在，但可通过更精细的工程手段弥补。”