AI News HubLIVE
站內改寫2 分鐘閱讀

Unstructured 推出 Extract:從文檔中提取結構化數據

Unstructured 在其文檔處理工作流中新增 Extract 節點,支持通過 LLM 或正則表達式從文檔中提取結構化 JSON 數據,適用於智能文檔處理、數據庫記錄生成等場景。

Unstructured 宣佈在其文檔處理工作流中引入一個新的富集節點——Extract,旨在直接從文檔中提取結構化數據。Unstructured 的標準工作流通常包括分區器(Partitioner)將內容拆分為類型化的文檔元素、富集(Enrichments)添加上下文和元數據、分塊器(Chunker)準備檢索用的塊、以及嵌入器(Embedder)生成搜索向量。這些節點共同使數據更適合用於 RAG、Agent AI 和模型微調。而現在,Extract 節點被添加到了工作流中,位於目的地節點之前,為用户提供了一種從非結構化文檔中提取結構化 JSON 記錄的能力。

與傳統的檢索用途不同,許多場景需要的是結構化的數據庫記錄而非文本塊。例如,客户訂單表單需要提取客户 ID、行項目和總計;醫療發票需要患者詳情和手術代碼;房地產列表、財務報表、會議日程等也都需要一致格式的 JSON 輸出。Extract 允許用户預先使用 JSON Schema 定義輸出結構——該模式遵循 OpenAI Structured Outputs 格式——然後 Unstructured 會自動從源文檔中提取數據並映射到定義的結構中。

Extract 節點支持兩種提取方法:基於 LLM 的提取和基於正則表達式的提取。LLM 提取適用於需要理解內容含義的任務,例如判斷會議是否與 AI 相關,或從非結構化醫療筆記中提取結構化患者記錄。正則表達式提取則適用於模式固定的數據,如發票號、日期、金額、電子郵件地址等。用户可以通過可視化模式構建器(在工作流編輯器中)或直接上傳 JSON 文件來定義提取模式。對於正則表達式模式,需為每個字段定義模式名稱和正則表達式。

當工作流運行時,Extract 節點會輸出一種新的文檔元素類型 DocumentData,該元素位於結果頂部,其元數據中的 extracted_data 字段包含映射後的結構化數據。其他文檔元素保持不變,因此同一工作流可以同時生成用於向量檢索的塊和用於數據庫的結構化記錄,無需二選一。

Extract 節點構建在 Unstructured 的分區和富集層之上,繼承了處理複雜佈局、掃描文件、多列 PDF、表格、圖像和手寫內容的能力。用户只需定義輸出形狀,Unstructured 負責讀取和理解文檔。這使得 Extract 非常適合金融、醫療、法律、運營等領域的智能文檔處理(IDP)。以往這類任務需要專門的提取系統或大量人工,而現在可以將其集成到現有工作流中,無需額外基礎設施。

用户可以通過工作流編輯器直接測試提取效果——拖入本地文件,運行包含 Extract 節點的流程,即可並排查看原始文檔和結構化輸出。滿意後,連接源和目的地連接器並作為作業運行。此外,Extract 節點完全可通過 Unstructured Python SDK 和 API 以編程方式訪問。Extract 節點現已可用,用户可免費註冊並測試自己的文檔。