AI News HubLIVE
站內改寫4 分鐘閱讀

ParseBench:首個面向AI代理的文檔解析基準測試

ParseBench是一個全新的基準測試,旨在衡量AI代理在實際企業文檔中的解析質量,涵蓋表格、圖表、內容忠實度、語義格式和視覺定位五個維度。通過對約2000頁企業文檔和超過16.7萬條測試規則的評估,結果顯示沒有單一方法在所有方面都表現出色,但LlamaParse Agentic模式以84.9%的整體得分成為唯一在五個關鍵維度上均有競爭力的方法。

文檔解析(或稱OCR)是所有處理真實世界文件的AI代理的基礎。在代理批准索賠、分析財務報告或從合同中提取條款之前,它需要正確讀取文檔。不是“差不多”,不是“足夠接近”,而是正確。然而,直到現在,還沒有一個基準測試能夠像代理實際需要的那樣衡量解析質量:跨越企業文檔的完整範圍,並在導致下游故障的維度上進行評估。

今天我們發佈了ParseBench,這是一個包含約2000頁經過人工驗證的企業文檔和超過16.7萬條測試規則的基準測試,圍繞五個能力維度組織:表格、圖表、內容忠實度、語義格式和視覺定位。我們評估了14種方法,涵蓋視覺語言模型、專用文檔解析器和LlamaParse。雖然沒有任何單一方法在所有方面都表現出色,但LlamaParse Agentic是唯一在五個關鍵維度上均有競爭力的方法,整體得分為84.9%。

基準測試數據集、評估代碼和完整的研究論文均已公開:數據集可在HuggingFace獲取,代碼和評估在GitHub上,論文在arXiv上。

現有基準測試的不足

人類閲讀文檔時可以繞過錯誤。一個稍微錯位的表格、缺失的腳註引用、無法渲染的圖表——代理(目前)無法做到這一點。批准保險索賠的代理會讀取覆蓋表格中的特定單元格。如果表格標題未對齊,它會讀取錯誤的列。如果缺少小數,計算就會偏差多個數量級。OCR和文檔解析的標準已從“人類可讀即可”轉變為“代理可可靠執行”。我們稱之為語義正確性:解析輸出是否保留了足夠的結構和含義以支持正確的下游決策。

現有基準測試在以下兩個方面沒有很好地衡量這一點:

錯誤的文檔。大多數基準測試使用學術論文、網絡內容或狹窄的語料庫。代表真正自動化驅動力的企業文檔(財務申報、合同、監管提交)未被充分代表。即使是OmniDocBench,可用最多樣化的基準測試,也只有6%的頁面來自企業內容。

錯誤的指標。文本相似度指標(BLEU、ROUGE、編輯距離)會懲罰諸如空白或輸出HTML與Markdown等表面差異,同時忽略關鍵錯誤,如轉置的表格標題、被簡化為原始OCR文本的圖表,或無聲刪除的刪除線。

ParseBench評估的內容

ParseBench測試五個對最終用户最重要的能力維度:

1. 表格

表格在企業文檔中無處不在,而這些現實世界的表格並不是學術基準測試中的簡單網格。合併單元格、分層標題、跨多頁的跨度以及每頁多個表格,即使是最佳的文檔處理流程也會出錯。

我們引入了一個新指標,稱為TableRecordMatch,它將表格視為下游系統實際消費的方式:作為記錄的集合,其中每行是一組按列標題索引的值。這意味着我們不會懲罰無害的差異,如列重新排序,但會嚴厲懲罰關鍵錯誤,如轉置的標題或缺失的列名。

2. 圖表

我們測試的大多數解析器要麼完全跳過圖表,要麼輸出原始OCR文本,這兩者都不能為代理提供可用數據。相反,所需的是實際值及其正確的系列名稱和軸標籤,以便在下游工作流程中處理。

我們為每張圖表標註最多10個抽查數據點,每個數據點包含數值、相關標籤和容差。具有顯式數值標籤的圖表必須完全匹配;必須從軸讀取數值的圖表獲得1%的容差,因為像素級讀取是不現實的。

3. 內容忠實度

最基本的要求:解析器是否實際捕獲了所有文本,順序正確,沒有編造?我們測試三種失敗模式:

  • 遺漏:單詞、句子和數字級別的文本丟失
  • 幻覺:源文檔中不存在的內容
  • 閲讀順序違規:多列布局線性化不正確

這是通過密集的基於規則的測試(數據集中超過16.7萬條規則)來評估的,而不是模糊的文本相似度。如果你的OCR丟失數據,你需要了解哪些類型的文檔會觸發這種情況。

4. 語義格式

大多數解析器將格式視為裝飾性內容並刪除它。但有些格式具有含義:

  • 刪除線價格不是當前價格
  • 上標“1”是腳註引用,不是數字一
  • 財務報告中的粗體文本通常標記關鍵聚合值
  • 標題層級決定文檔結構

如果你的代理無法區分$49.99 $39.99和“$49.99 $39.99”,它可能會引用舊價格。

5. 視覺定位

解析器能否將每個提取的元素追溯到其在頁面上的源位置?這對於受監管行業中的可審計性至關重要。如果代理從保險表格中提取覆蓋限額,你需要能夠指出該數字在頁面上的確切來源。

我們將此評估為一個聯合問題:解析器必須找到正確的區域(定位)、分配正確的標籤(分類)並附加正確的內容(歸因)。

數據集的構建方式

所有約2000頁均來自真實的、公開可用的企業文檔,涵蓋保險(SERFF備案)、金融(公開財務報告)、政府文檔和其他領域。我們故意從簡單到對抗性困難的情況進行採樣。

真實標籤通過兩階段流程生成:

  • 自動標註:前沿VLM生成初始註釋
  • 人工驗證:註釋員審查並糾正每一頁,審查工作流程針對每個維度的真實標籤格式定製

ParseBench結果

我們測試了14種方法,涵蓋三類:通用VLM(GPT-5 Mini、Haiku 4.5、Gemini 3 Flash、Qwen 3 VL、Dots OCR 1.5)、專用文檔解析器(Textract、Azure Document Intelligence、Google Cloud Document AI、Reducto、Docling、Extend、LandingAI)以及LlamaParse(成本效益和Agentic模式)。

以下是主要結果:

  • 圖表是最大的分水嶺。只有四家提供商超過50%。大多數專用解析器得分低於6%,因為它們沒有將圖表數據提取為結構化表格。
  • 內容忠實度基本解決(但尚未完全)。最佳方法達到約90%,這聽起來不錯,但意味着代理在每10頁中仍有1頁遇到有意義的遺漏和幻覺。對於高風險工作流,這還不夠好。ParseBench幫助我們(和我們的用户)瞭解哪些類型的文檔需要額外注意。
  • 格式被廣泛忽略。大多數解析器將刪除線、上標和粗體視為裝飾性內容並刪除它們。得分範圍從1.0%(Docling)到85.2%(LlamaParse Agentic)。
  • 視覺定位區分了VLM和專用解析器。GPT-5 Mini和Haiku在定位上的得分低於8%。準確的元素級定位需要空間推理,這超出了單個LLM傳遞的能力。與此同時,圍繞佈局檢測構建的傳統文檔解析器得分在55%到80%之間。

質量與成本

我們還分析了質量-成本權衡。兩個模式突出:

  • 向VLM投入更多計算資源會帶來遞減的回報。Gemini從最小思考到高思考,成本增加4倍,得分僅提高約5分。GPT-5 Mini和Haiku在成本增加3-4倍的情況下,收益甚至更小。
  • LlamaParse位於OCR前沿。Agentic模式(約每頁1.2美分,84.9%整體得分)在任意成本水平上均優於其他所有提供商。成本效益模式(約每頁0.3美分,78.1%)在成本低於其他提供商的情況下,性能超過它們。

親自嘗試

要自行運行基準測試:

git clone https://github.com/run-llama/parse-bench.git
cd ParseBench

# 安裝
uv sync --extra runners

# 在任何支持的流水線上運行基準測試
uv run parse-bench run

# 查看交互式報告
uv run parse-bench serve

基準測試包含90多個預配置流水線和所有評估代碼。添加自己的OCR模型很簡單(並且鼓勵這樣做!)。敬請期待即將推出的官方排行榜。

數據集:HuggingFace 代碼與評估:GitHub 論文:arXiv