2026-05-15 11:57 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

前沿模型雖強，但文件解析更難 | Unstructured

Unstructured使用SCORE-Bench基準測試評估了五種前沿模型在企業文件解析上的表現，發現原始模型呼叫與最佳化管線之間存在顯著差距。儘管模型在推理和幻覺控制（尤其Claude Opus 4.6）上表現強勁，但在表格提取、文件結構和輸出一致性方面仍落後於專業管線，差距高達23個百分點。文章指出，差距並非能力問題，而是配置問題，透過最佳化提示、後處理和輸出結構約束可以有效彌合。

來源Unstructured Blog

Unstructured近日釋出了一項針對前沿模型在企業文件解析能力上的基準測試，結果令人深思：儘管當前最先進的模型在綜合推理基準上接近人類專家水平，但要真正處理真實的商業文件（如發票、財報、合同等），它們與專業最佳化管線之間仍存在顯著差距。

測試採用SCORE-Bench，這是一個包含224份真實企業文件的開放基準，涵蓋歪斜掃描的發票、巢狀表格的財務報告、複雜多欄佈局的技術文件等。測試物件包括Claude Opus 4.6、GPT-5.2、Claude Sonnet 4、GPT-5-mini和Gemini 2.5 Pro，均使用簡單提取提示且無額外配置。基線則是Unstructured的VLM Partitioner管線，該管線使用Claude Opus 4.5配合最佳化提示、後處理和輸出結構約束。

結果顯示，所有模型的綜合準確率比基線低4至16個百分點。關鍵發現包括：

幻覺率方面，Opus 4.6表現驚豔，其幻覺率僅為0.044，幾乎與基線的0.043持平。這意味著它極少捏造源文件中不存在的內容。然而，GPT-5.2（0.167）、GPT-5-mini（0.161）和Gemini 2.5 Pro（0.257）的幻覺率則高出數倍。但Opus 4.6的召回率（覆蓋率）僅為0.737，是模型中最差的，導致約四分之一的內容被遺漏。這使得使用者面臨兩難選擇：低幻覺的模型會遺漏關鍵資訊，而高覆蓋率的模型則可能注入虛構資料。

表格提取是另一個重災區。所有模型的表格提取準確率比基線低多達23個百分點。問題的核心並非讀取單元格文本，而是理解行列歸屬。一個模型可能正確識別數字“4.2百萬”，卻將其放在錯誤的列中，導致資料表面正確但含義錯誤，這對財務分析等場景是致命缺陷。

文件結構是差距最大的領域。元素對齊（識別標題、段落、表格、圖形並正確排序）的準確率比基線低16個百分點。錯誤的無聲傳播尤為危險：段落歸屬錯誤、圖表與標題分離、子標題混入正文。當這些斷章取義的內容進入RAG管道時，LLM將基於錯序的上下文產生看似合理但實際錯誤的答案。

輸出一致性方面，Gemini 2.5 Pro在5%的文件上產生了不一致的輸出格式，需要額外後處理才能使用。這意味著管線無法完全自動化，必須構建降級層來處理異常。

Unstructured指出，差距並非模型能力不足，而是配置缺陷。原始模型呼叫只需簡單提示，但文件解析的細節——合併的表格標題、文件元素順序、內容捕獲量、輸出格式——均未被指定。三層最佳化可彌合這一差距：最佳化提示為模型提供結構指引；後處理規範化輸出並處理邊界情況；輸出結構約束定義有效響應格式。每層針對一個特定失敗模式：元素對齊問題源自提示不足；Opus 4.6的召回率是提示問題；Gemini的格式不一致是輸出結構問題。

“這些模型很強大，但通用能力與文件解析效能是兩回事，”文章總結道。“原始呼叫與生產級管線之間的差距真實存在，但可透過更精細的工程手段彌補。”