AI News HubLIVE
公開文章 8採集文章 11可信度 82刷新頻率 120 分鐘
健康狀態 健康來源類型 官方原文權限 官方原文最近入庫 2026-06-09ID unstructured-blog運行狀態 已啟用

Official document AI and RAG infrastructure blog; confirm reuse terms before full body display.

最新公開文章

您的湖倉擅長處理結構化資料。非結構化資料是下一個目標。

本文探討了企業AI代理無法訪問組織中約80%的非結構化資料(如PDF、合同、電子郵件等)的問題,並介紹了Unstructured平臺如何將這些資料轉化為Databricks湖倉中代理可用的知識。文章強調了單一管道處理多種檔案型別、遵循獎章架構、以及透過Unity Catalog實現治理的優勢。

  • 組織約80%的知識儲存在非結構化資料中,AI代理無法直接訪問。
  • Unstructured提供單一管道,支援65+檔案型別,實現提取、分塊、豐富和嵌入。
站內正文

Unstructured獲得NAVSEA合同,為艦隊AI資料訪問提供支援

美國海軍海上系統司令部授予Unstructured一份合同,旨在設計和演示AI驅動的解決方案,幫助作戰人員更快獲取關鍵資訊,減少操作員負擔,並加速反潛戰和水面戰決策。該方案結合Unstructured的資料處理和Elastic的企業搜尋能力,將整合異構資料來源,提供可解釋的搜尋結果,首先應用於AN/SQQ-34航母戰術支援系統和AN/UYQ-100水下戰決策支援系統,並計劃未來擴充套件至聯合全域指揮控制等領域。

  • Unstructured獲NAVSEA合同,開發AI解決方案以整合碎片化資料,加速艦隊決策。
  • 方案將結合Unstructured的資料攝取與Elastic的企業搜尋,支援反潛戰和水面戰。
站內正文

Unstructured 推出 Extract:從文件中提取結構化資料

Unstructured 在其文件處理工作流中新增 Extract 節點,支援透過 LLM 或正規表示式從文件中提取結構化 JSON 資料,適用於智慧文件處理、資料庫記錄生成等場景。

  • Extract 節點可定義 JSON Schema,將文件內容轉換為結構化記錄,支援 LLM 和正規表示式兩種提取方式。
  • 與現有分割槽、分塊、嵌入等節點協同工作,同一工作流可同時用於檢索和提取,輸出包含 DocumentData 元素。
站內正文

Webhooks:將Unstructured與後續所有流程連線起來

Unstructured推出webhooks功能,可根據任務生命週期事件自動觸發下游操作,支援透過工作區或工作流範圍與任何端點整合。

  • Webhooks在五個任務事件上觸發:已安排、進行中、已停止、失敗、已完成。
  • 兩種範圍:工作區範圍(所有任務)和工作流範圍(特定工作流)。
站內正文

我們如何教會AI智慧體修復訓練資料 | Unstructured

Unstructured發現,合併高質量但標註風格不一致的資料集反而降低了模型效能。他們構建了一個基於VLM的智慧體標籤統一流水線,在訓練前協調標註差異,最終在14項指標上取得提升。

  • 訓練資料中的標註不一致會導致模型效能下降,即使資料量增加。
  • Unstructured開發了智慧體標籤統一工作流,使用VLM在訓練前解決標註衝突。
站內正文

前沿模型雖強,但文件解析更難 | Unstructured

Unstructured使用SCORE-Bench基準測試評估了五種前沿模型在企業文件解析上的表現,發現原始模型呼叫與最佳化管線之間存在顯著差距。儘管模型在推理和幻覺控制(尤其Claude Opus 4.6)上表現強勁,但在表格提取、文件結構和輸出一致性方面仍落後於專業管線,差距高達23個百分點。文章指出,差距並非能力問題,而是配置問題,透過最佳化提示、後處理和輸出結構約束可以有效彌合。

  • Claude Opus 4.6的幻覺率(0.044)接近最佳化管線(0.043),但召回率最低(0.737),導致丟失約四分之一內容。
  • 所有模型在表格提取上準確率低至23個百分點,存在結構錯位風險。
站內正文

高階RAG技術:構建更智慧LLM的深度指南 | Unstructured

Unstructured釋出新指南,深入講解高階檢索增強生成(RAG)技術,涵蓋智慧分塊、後設資料過濾、GraphRAG、混合搜尋和代理工作流等,旨在幫助開發者構建可擴充套件的企業級AI管道。

  • 指南解釋簡單RAG為何失敗並提供解決方案
  • 涵蓋多種智慧分塊策略(基於標題、相似性和結構感知)
站內正文

更快速、更強大的文件轉換:Unstructured 釋出新功能和生成式精煉

Unstructured 宣佈一系列更新,包括簡化的拖放介面、生成式精煉技術以提高輸出保真度,以及簡化的定價方案。新工作流程結合高解析度分割槽與視覺語言模型增強,實現更高精度和結構儲存。

  • 新首頁支援拖放檔案,三分鐘內即可完成處理,並提供視覺化預覽。
  • 生成式精煉利用VLM後處理,改進OCR、表格和影像內容。
站內正文

全部來源