前沿模型雖強,但文件解析更難 | Unstructured
Unstructured使用SCORE-Bench基準測試評估了五種前沿模型在企業文件解析上的表現,發現原始模型呼叫與最佳化管線之間存在顯著差距。儘管模型在推理和幻覺控制(尤其Claude Opus 4.6)上表現強勁,但在表格提取、文件結構和輸出一致性方面仍落後於專業管線,差距高達23個百分點。文章指出,差距並非能力問題,而是配置問題,透過最佳化提示、後處理和輸出結構約束可以有效彌合。
Unstructured近日釋出了一項針對前沿模型在企業文件解析能力上的基準測試,結果令人深思:儘管當前最先進的模型在綜合推理基準上接近人類專家水平,但要真正處理真實的商業文件(如發票、財報、合同等),它們與專業最佳化管線之間仍存在顯著差距。
測試採用SCORE-Bench,這是一個包含224份真實企業文件的開放基準,涵蓋歪斜掃描的發票、巢狀表格的財務報告、複雜多欄佈局的技術文件等。測試物件包括Claude Opus 4.6、GPT-5.2、Claude Sonnet 4、GPT-5-mini和Gemini 2.5 Pro,均使用簡單提取提示且無額外配置。基線則是Unstructured的VLM Partitioner管線,該管線使用Claude Opus 4.5配合最佳化提示、後處理和輸出結構約束。
結果顯示,所有模型的綜合準確率比基線低4至16個百分點。關鍵發現包括:
幻覺率方面,Opus 4.6表現驚豔,其幻覺率僅為0.044,幾乎與基線的0.043持平。這意味著它極少捏造源文件中不存在的內容。然而,GPT-5.2(0.167)、GPT-5-mini(0.161)和Gemini 2.5 Pro(0.257)的幻覺率則高出數倍。但Opus 4.6的召回率(覆蓋率)僅為0.737,是模型中最差的,導致約四分之一的內容被遺漏。這使得使用者面臨兩難選擇:低幻覺的模型會遺漏關鍵資訊,而高覆蓋率的模型則可能注入虛構資料。
表格提取是另一個重災區。所有模型的表格提取準確率比基線低多達23個百分點。問題的核心並非讀取單元格文本,而是理解行列歸屬。一個模型可能正確識別數字“4.2百萬”,卻將其放在錯誤的列中,導致資料表面正確但含義錯誤,這對財務分析等場景是致命缺陷。
文件結構是差距最大的領域。元素對齊(識別標題、段落、表格、圖形並正確排序)的準確率比基線低16個百分點。錯誤的無聲傳播尤為危險:段落歸屬錯誤、圖表與標題分離、子標題混入正文。當這些斷章取義的內容進入RAG管道時,LLM將基於錯序的上下文產生看似合理但實際錯誤的答案。
輸出一致性方面,Gemini 2.5 Pro在5%的文件上產生了不一致的輸出格式,需要額外後處理才能使用。這意味著管線無法完全自動化,必須構建降級層來處理異常。
Unstructured指出,差距並非模型能力不足,而是配置缺陷。原始模型呼叫只需簡單提示,但文件解析的細節——合併的表格標題、文件元素順序、內容捕獲量、輸出格式——均未被指定。三層最佳化可彌合這一差距:最佳化提示為模型提供結構指引;後處理規範化輸出並處理邊界情況;輸出結構約束定義有效響應格式。每層針對一個特定失敗模式:元素對齊問題源自提示不足;Opus 4.6的召回率是提示問題;Gemini的格式不一致是輸出結構問題。
“這些模型很強大,但通用能力與文件解析效能是兩回事,”文章總結道。“原始呼叫與生產級管線之間的差距真實存在,但可透過更精細的工程手段彌補。”