您的湖倉擅長處理結構化數據。非結構化數據是下一個目標。 2026-06-10 00:05 UTC+8 本文探討了企業AI代理無法訪問組織中約80%的非結構化數據(如PDF、合同、電子郵件等)的問題,並介紹了Unstructured平台如何將這些數據轉化為Databricks湖倉中代理可用的知識。文章強調了單一管道處理多種文件類型、遵循獎章架構、以及通過Unity Catalog實現治理的優勢。
組織約80%的知識存儲在非結構化數據中,AI代理無法直接訪問。 Unstructured提供單一管道,支持65+文件類型,實現提取、分塊、豐富和嵌入。 Unstructured獲得NAVSEA合同,為艦隊AI數據訪問提供支持 2026-05-15 12:00 UTC+8 美國海軍海上系統司令部授予Unstructured一份合同,旨在設計和演示AI驅動的解決方案,幫助作戰人員更快獲取關鍵信息,減少操作員負擔,並加速反潛戰和水面戰決策。該方案結合Unstructured的數據處理和Elastic的企業搜索能力,將整合異構數據源,提供可解釋的搜索結果,首先應用於AN/SQQ-34航母戰術支持系統和AN/UYQ-100水下戰決策支持系統,並計劃未來擴展至聯合全域指揮控制等領域。
Unstructured獲NAVSEA合同,開發AI解決方案以整合碎片化數據,加速艦隊決策。 方案將結合Unstructured的數據攝取與Elastic的企業搜索,支持反潛戰和水面戰。 Unstructured 推出 Extract:從文檔中提取結構化數據 2026-05-15 12:00 UTC+8 Unstructured 在其文檔處理工作流中新增 Extract 節點,支持通過 LLM 或正則表達式從文檔中提取結構化 JSON 數據,適用於智能文檔處理、數據庫記錄生成等場景。
Extract 節點可定義 JSON Schema,將文檔內容轉換為結構化記錄,支持 LLM 和正則表達式兩種提取方式。 與現有分區、分塊、嵌入等節點協同工作,同一工作流可同時用於檢索和提取,輸出包含 DocumentData 元素。 Webhooks:將Unstructured與後續所有流程連接起來 2026-05-15 11:59 UTC+8 Unstructured推出webhooks功能,可根據任務生命週期事件自動觸發下游操作,支持通過工作區或工作流範圍與任何端點集成。
Webhooks在五個任務事件上觸發:已安排、進行中、已停止、失敗、已完成。 兩種範圍:工作區範圍(所有任務)和工作流範圍(特定工作流)。 我們如何教會AI智能體修復訓練數據 | Unstructured 2026-05-15 11:58 UTC+8 Unstructured發現,合併高質量但標註風格不一致的數據集反而降低了模型性能。他們構建了一個基於VLM的智能體標籤統一流水線,在訓練前協調標註差異,最終在14項指標上取得提升。
訓練數據中的標註不一致會導致模型性能下降,即使數據量增加。 Unstructured開發了智能體標籤統一工作流,使用VLM在訓練前解決標註衝突。 前沿模型雖強,但文檔解析更難 | Unstructured 2026-05-15 11:57 UTC+8 Unstructured使用SCORE-Bench基準測試評估了五種前沿模型在企業文檔解析上的表現,發現原始模型調用與優化管線之間存在顯著差距。儘管模型在推理和幻覺控制(尤其Claude Opus 4.6)上表現強勁,但在表格提取、文檔結構和輸出一致性方面仍落後於專業管線,差距高達23個百分點。文章指出,差距並非能力問題,而是配置問題,通過優化提示、後處理和輸出結構約束可以有效彌合。
Claude Opus 4.6的幻覺率(0.044)接近優化管線(0.043),但召回率最低(0.737),導致丟失約四分之一內容。 所有模型在表格提取上準確率低至23個百分點,存在結構錯位風險。 高級RAG技術:構建更智能LLM的深度指南 | Unstructured 2026-05-15 11:57 UTC+8 Unstructured發佈新指南,深入講解高級檢索增強生成(RAG)技術,涵蓋智能分塊、元數據過濾、GraphRAG、混合搜索和代理工作流等,旨在幫助開發者構建可擴展的企業級AI管道。
指南解釋簡單RAG為何失敗並提供解決方案 涵蓋多種智能分塊策略(基於標題、相似性和結構感知) 更快速、更強大的文檔轉換:Unstructured 發佈新功能和生成式精煉 2026-05-15 11:56 UTC+8 Unstructured 宣佈一系列更新,包括簡化的拖放界面、生成式精煉技術以提高輸出保真度,以及簡化的定價方案。新工作流程結合高分辨率分區與視覺語言模型增強,實現更高精度和結構保存。
新首頁支持拖放文件,三分鐘內即可完成處理,並提供可視化預覽。 生成式精煉利用VLM後處理,改進OCR、表格和圖像內容。