2026-06-09站内改写1 分鐘閱讀更新: 2026-06-15

您的湖倉擅長處理結構化數據。非結構化數據是下一個目標。

本文探討了企業AI代理無法訪問組織中約80%的非結構化數據（如PDF、合同、電子郵件等）的問題，並介紹了Unstructured平台如何將這些數據轉化為Databricks湖倉中代理可用的知識。文章強調了單一管道處理多種文件類型、遵循獎章架構、以及通過Unity Catalog實現治理的優勢。

來源Unstructured Blog

企業正在向AI投入大量資金，但代理卻未能發揮預期作用。問題的根源在於數據：AI代理只能訪問組織中約20%的結構化數據，而其餘80%的非結構化數據——PDF、合同、電子郵件、通話錄音、掃描文檔等——仍然無法觸及。這些數據中藴含着關鍵決策和機構知識，但當前的AI管道無法利用它們。

Databricks湖倉為結構化數據和AI提供了出色的基礎，但非結構化數據的接入仍是一個挑戰。Unstructured平台填補了這一空白：它能夠從多種來源（如SharePoint、Salesforce、Google Drive等）提取內容，並通過單一管道完成提取、準確分塊、元數據豐富和嵌入，最終將處理後的數據寫入Unity Catalog。

Unstructured的輸出可以映射到獎章架構：原始數據存入Bronze層，經過轉換和豐富進入Silver層，最終根據用例存入Gold層——無論是供Agentic RAG使用的嵌入內容，還是供BI工具直接查詢的結構化數據提取。該平台支持Iceberg表，儘管目前還不支持向量數據類型。

在治理方面，Unstructured遵循客户的安全模型，支持SaaS、混合SaaS、VPC或裸機部署，並通過PrivateLink確保流量不經過公共互聯網。所有數據繼承Unity Catalog中已有的治理策略，無需單獨管理。此外，Unstructured與Databricks Unity AI Gateway集成，實現從原始文檔到生產代理的完整審計鏈。

當非結構化數據成功接入湖倉後，AI代理能夠訪問完整的業務上下文，數據計劃不再受阻，工程團隊可以將更多時間用於構建核心功能，而非拼接系統。Unstructured與現有基礎設施並行工作，無需中斷已有的Databricks環境。

如果您正在參加2026年6月15-18日的Databricks Data + AI峯會，歡迎向我們展示最棘手的用例。Unstructured致力於將每一個文檔、電子郵件和文件轉化為湖倉中代理可用的、受治理的知識。