Unstructured 推出 Extract:從文件中提取結構化資料
Unstructured 在其文件處理工作流中新增 Extract 節點,支援透過 LLM 或正規表示式從文件中提取結構化 JSON 資料,適用於智慧文件處理、資料庫記錄生成等場景。
Unstructured 宣佈在其文件處理工作流中引入一個新的富集節點——Extract,旨在直接從文件中提取結構化資料。Unstructured 的標準工作流通常包括分割槽器(Partitioner)將內容拆分為型別化的文件元素、富集(Enrichments)新增上下文和後設資料、分塊器(Chunker)準備檢索用的塊、以及嵌入器(Embedder)生成搜尋向量。這些節點共同使資料更適合用於 RAG、Agent AI 和模型微調。而現在,Extract 節點被新增到了工作流中,位於目的地節點之前,為使用者提供了一種從非結構化文件中提取結構化 JSON 記錄的能力。
與傳統的檢索用途不同,許多場景需要的是結構化的資料庫記錄而非文本塊。例如,客戶訂單表單需要提取客戶 ID、行專案和總計;醫療發票需要患者詳情和手術程式碼;房地產列表、財務報表、會議日程等也都需要一致格式的 JSON 輸出。Extract 允許使用者預先使用 JSON Schema 定義輸出結構——該模式遵循 OpenAI Structured Outputs 格式——然後 Unstructured 會自動從源文件中提取資料並對映到定義的結構中。
Extract 節點支援兩種提取方法:基於 LLM 的提取和基於正規表示式的提取。LLM 提取適用於需要理解內容含義的任務,例如判斷會議是否與 AI 相關,或從非結構化醫療筆記中提取結構化患者記錄。正規表示式提取則適用於模式固定的資料,如發票號、日期、金額、電子郵件地址等。使用者可以透過視覺化模式構建器(在工作流編輯器中)或直接上傳 JSON 檔案來定義提取模式。對於正規表示式模式,需為每個欄位定義模式名稱和正規表示式。
當工作流執行時,Extract 節點會輸出一種新的文件元素型別 DocumentData,該元素位於結果頂部,其後設資料中的 extracted_data 欄位包含對映後的結構化資料。其他文件元素保持不變,因此同一工作流可以同時生成用於向量檢索的塊和用於資料庫的結構化記錄,無需二選一。
Extract 節點構建在 Unstructured 的分割槽和富集層之上,繼承了處理複雜佈局、掃描檔案、多列 PDF、表格、影像和手寫內容的能力。使用者只需定義輸出形狀,Unstructured 負責讀取和理解文件。這使得 Extract 非常適合金融、醫療、法律、運營等領域的智慧文件處理(IDP)。以往這類任務需要專門的提取系統或大量人工,而現在可以將其整合到現有工作流中,無需額外基礎設施。
使用者可以透過工作流編輯器直接測試提取效果——拖入本地檔案,執行包含 Extract 節點的流程,即可並排檢視原始文件和結構化輸出。滿意後,連線源和目的地聯結器並作為作業執行。此外,Extract 節點完全可透過 Unstructured Python SDK 和 API 以程式設計方式訪問。Extract 節點現已可用,使用者可免費註冊並測試自己的文件。