AI News HubLIVE
站内改写1 分鐘閱讀

如何使用Docling Parse構建佈局感知文件智慧的解析管道

本教程詳細介紹瞭如何使用Docling Parse對PDF文件進行低階別結構分析,包括設定Python環境、生成自定義多頁PDF、提取詞、字元和行級座標文本,以及儲存結構化輸出為JSON和CSV。透過重建佈局感知的閱讀順序,展示了Docling Parse如何支援文件AI任務。

來源MarkTechPost作者: Sana Hassan

本教程演示瞭如何使用Docling Parse構建一個完整的PDF解析管道,以實現佈局感知的文件智慧。首先,我們準備穩定的Python環境,並解決Google Colab中常見的依賴問題,例如透過指定Pillow版本避免相容性錯誤。接著,我們使用ReportLab生成一個自定義的多頁PDF,其中包含豐富的文件元素:多列文本、表格類內容、向量圖形(如矩形和線條)以及嵌入的影像,以模擬真實世界文件的複雜性。

在解析階段,我們利用Docling Parse的Python API載入PDF,並逐頁提取不同粒度的文本單元:單詞、字元和行。每個單元都附帶頁面級邊界框座標,這為後續的佈局分析提供了基礎。我們還透過渲染覆蓋影像,視覺化Docling Parse如何檢測和對映PDF頁面上的內容,從而直觀驗證解析結果。

提取完成後,我們將所有解析結果匯出為結構化的JSON和CSV檔案,便於後續處理和分析。在此基礎上,我們實現了一個基於座標的文本重建演算法:首先從單詞記錄中提取矩形座標,然後透過垂直聚類(閾值8畫素)將單詞分組為行,再按水平位置排序,從而恢復文件的原始閱讀順序。這一過程展示瞭如何從低階別的解析輸出重建佈局感知的文本。

最後,我們進行了效能基準測試,比較了標準序列解析與多執行緒解析(4執行緒)的速度。同時檢查了Docling Parse命令列的可用性。所有生成的輸出檔案,包括解析結果、重建文本、基準測試資料和視覺化影像,都儲存在指定的輸出目錄中。整個管道證明了Docling Parse在佈局分析、閱讀順序重建、表格感知處理和檢索就緒文件準備等文件AI任務中的強大能力。