2026-05-15 10:31 UTC+8站內改寫4 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

ParseBench：首個面向AI代理的文檔解析基準測試

ParseBench是一個全新的基準測試，旨在衡量AI代理在實際企業文檔中的解析質量，涵蓋表格、圖表、內容忠實度、語義格式和視覺定位五個維度。通過對約2000頁企業文檔和超過16.7萬條測試規則的評估，結果顯示沒有單一方法在所有方面都表現出色，但LlamaParse Agentic模式以84.9%的整體得分成為唯一在五個關鍵維度上均有競爭力的方法。

來源LlamaIndex Blog

文檔解析（或稱OCR）是所有處理真實世界文件的AI代理的基礎。在代理批准索賠、分析財務報告或從合同中提取條款之前，它需要正確讀取文檔。不是“差不多”，不是“足夠接近”，而是正確。然而，直到現在，還沒有一個基準測試能夠像代理實際需要的那樣衡量解析質量：跨越企業文檔的完整範圍，並在導致下游故障的維度上進行評估。

今天我們發佈了ParseBench，這是一個包含約2000頁經過人工驗證的企業文檔和超過16.7萬條測試規則的基準測試，圍繞五個能力維度組織：表格、圖表、內容忠實度、語義格式和視覺定位。我們評估了14種方法，涵蓋視覺語言模型、專用文檔解析器和LlamaParse。雖然沒有任何單一方法在所有方面都表現出色，但LlamaParse Agentic是唯一在五個關鍵維度上均有競爭力的方法，整體得分為84.9%。

基準測試數據集、評估代碼和完整的研究論文均已公開：數據集可在HuggingFace獲取，代碼和評估在GitHub上，論文在arXiv上。

現有基準測試的不足

人類閲讀文檔時可以繞過錯誤。一個稍微錯位的表格、缺失的腳註引用、無法渲染的圖表——代理（目前）無法做到這一點。批准保險索賠的代理會讀取覆蓋表格中的特定單元格。如果表格標題未對齊，它會讀取錯誤的列。如果缺少小數，計算就會偏差多個數量級。OCR和文檔解析的標準已從“人類可讀即可”轉變為“代理可可靠執行”。我們稱之為語義正確性：解析輸出是否保留了足夠的結構和含義以支持正確的下游決策。

現有基準測試在以下兩個方面沒有很好地衡量這一點：

錯誤的文檔。大多數基準測試使用學術論文、網絡內容或狹窄的語料庫。代表真正自動化驅動力的企業文檔（財務申報、合同、監管提交）未被充分代表。即使是OmniDocBench，可用最多樣化的基準測試，也只有6%的頁面來自企業內容。

錯誤的指標。文本相似度指標（BLEU、ROUGE、編輯距離）會懲罰諸如空白或輸出HTML與Markdown等表面差異，同時忽略關鍵錯誤，如轉置的表格標題、被簡化為原始OCR文本的圖表，或無聲刪除的刪除線。

ParseBench評估的內容

ParseBench測試五個對最終用户最重要的能力維度：

1. 表格

表格在企業文檔中無處不在，而這些現實世界的表格並不是學術基準測試中的簡單網格。合併單元格、分層標題、跨多頁的跨度以及每頁多個表格，即使是最佳的文檔處理流程也會出錯。

我們引入了一個新指標，稱為TableRecordMatch，它將表格視為下游系統實際消費的方式：作為記錄的集合，其中每行是一組按列標題索引的值。這意味着我們不會懲罰無害的差異，如列重新排序，但會嚴厲懲罰關鍵錯誤，如轉置的標題或缺失的列名。

2. 圖表

我們測試的大多數解析器要麼完全跳過圖表，要麼輸出原始OCR文本，這兩者都不能為代理提供可用數據。相反，所需的是實際值及其正確的系列名稱和軸標籤，以便在下游工作流程中處理。

我們為每張圖表標註最多10個抽查數據點，每個數據點包含數值、相關標籤和容差。具有顯式數值標籤的圖表必須完全匹配；必須從軸讀取數值的圖表獲得1%的容差，因為像素級讀取是不現實的。

3. 內容忠實度

最基本的要求：解析器是否實際捕獲了所有文本，順序正確，沒有編造？我們測試三種失敗模式：

遺漏：單詞、句子和數字級別的文本丟失
幻覺：源文檔中不存在的內容
閲讀順序違規：多列布局線性化不正確

這是通過密集的基於規則的測試（數據集中超過16.7萬條規則）來評估的，而不是模糊的文本相似度。如果你的OCR丟失數據，你需要了解哪些類型的文檔會觸發這種情況。

4. 語義格式

大多數解析器將格式視為裝飾性內容並刪除它。但有些格式具有含義：

刪除線價格不是當前價格
上標“1”是腳註引用，不是數字一
財務報告中的粗體文本通常標記關鍵聚合值
標題層級決定文檔結構

如果你的代理無法區分$49.99 $39.99和“$49.99 $39.99”，它可能會引用舊價格。

5. 視覺定位

解析器能否將每個提取的元素追溯到其在頁面上的源位置？這對於受監管行業中的可審計性至關重要。如果代理從保險表格中提取覆蓋限額，你需要能夠指出該數字在頁面上的確切來源。

我們將此評估為一個聯合問題：解析器必須找到正確的區域（定位）、分配正確的標籤（分類）並附加正確的內容（歸因）。

數據集的構建方式

所有約2000頁均來自真實的、公開可用的企業文檔，涵蓋保險（SERFF備案）、金融（公開財務報告）、政府文檔和其他領域。我們故意從簡單到對抗性困難的情況進行採樣。

真實標籤通過兩階段流程生成：

自動標註：前沿VLM生成初始註釋
人工驗證：註釋員審查並糾正每一頁，審查工作流程針對每個維度的真實標籤格式定製

ParseBench結果

我們測試了14種方法，涵蓋三類：通用VLM（GPT-5 Mini、Haiku 4.5、Gemini 3 Flash、Qwen 3 VL、Dots OCR 1.5）、專用文檔解析器（Textract、Azure Document Intelligence、Google Cloud Document AI、Reducto、Docling、Extend、LandingAI）以及LlamaParse（成本效益和Agentic模式）。

以下是主要結果：

圖表是最大的分水嶺。只有四家提供商超過50%。大多數專用解析器得分低於6%，因為它們沒有將圖表數據提取為結構化表格。
內容忠實度基本解決（但尚未完全）。最佳方法達到約90%，這聽起來不錯，但意味着代理在每10頁中仍有1頁遇到有意義的遺漏和幻覺。對於高風險工作流，這還不夠好。ParseBench幫助我們（和我們的用户）瞭解哪些類型的文檔需要額外注意。
格式被廣泛忽略。大多數解析器將刪除線、上標和粗體視為裝飾性內容並刪除它們。得分範圍從1.0%（Docling）到85.2%（LlamaParse Agentic）。
視覺定位區分了VLM和專用解析器。GPT-5 Mini和Haiku在定位上的得分低於8%。準確的元素級定位需要空間推理，這超出了單個LLM傳遞的能力。與此同時，圍繞佈局檢測構建的傳統文檔解析器得分在55%到80%之間。

質量與成本

我們還分析了質量-成本權衡。兩個模式突出：

向VLM投入更多計算資源會帶來遞減的回報。Gemini從最小思考到高思考，成本增加4倍，得分僅提高約5分。GPT-5 Mini和Haiku在成本增加3-4倍的情況下，收益甚至更小。
LlamaParse位於OCR前沿。Agentic模式（約每頁1.2美分，84.9%整體得分）在任意成本水平上均優於其他所有提供商。成本效益模式（約每頁0.3美分，78.1%）在成本低於其他提供商的情況下，性能超過它們。

親自嘗試

要自行運行基準測試：

git clone https://github.com/run-llama/parse-bench.git
cd ParseBench

# 安裝
uv sync --extra runners

# 在任何支持的流水線上運行基準測試
uv run parse-bench run

# 查看交互式報告
uv run parse-bench serve

基準測試包含90多個預配置流水線和所有評估代碼。添加自己的OCR模型很簡單（並且鼓勵這樣做！）。敬請期待即將推出的官方排行榜。

數據集：HuggingFace 代碼與評估：GitHub 論文：arXiv