2026-06-09站内改写1 分鐘閱讀更新: 2026-06-15

您的湖倉擅長處理結構化資料。非結構化資料是下一個目標。

本文探討了企業AI代理無法訪問組織中約80%的非結構化資料（如PDF、合同、電子郵件等）的問題，並介紹了Unstructured平臺如何將這些資料轉化為Databricks湖倉中代理可用的知識。文章強調了單一管道處理多種檔案型別、遵循獎章架構、以及透過Unity Catalog實現治理的優勢。

來源Unstructured Blog

企業正在向AI投入大量資金，但代理卻未能發揮預期作用。問題的根源在於資料：AI代理只能訪問組織中約20%的結構化資料，而其餘80%的非結構化資料——PDF、合同、電子郵件、通話錄音、掃描文件等——仍然無法觸及。這些資料中蘊含著關鍵決策和機構知識，但當前的AI管道無法利用它們。

Databricks湖倉為結構化資料和AI提供了出色的基礎，但非結構化資料的接入仍是一個挑戰。Unstructured平臺填補了這一空白：它能夠從多種來源（如SharePoint、Salesforce、Google Drive等）提取內容，並透過單一管道完成提取、準確分塊、後設資料豐富和嵌入，最終將處理後的資料寫入Unity Catalog。

Unstructured的輸出可以對映到獎章架構：原始資料存入Bronze層，經過轉換和豐富進入Silver層，最終根據用例存入Gold層——無論是供Agentic RAG使用的嵌入內容，還是供BI工具直接查詢的結構化資料提取。該平臺支援Iceberg表，儘管目前還不支援向量資料型別。

在治理方面，Unstructured遵循客戶的安全模型，支援SaaS、混合SaaS、VPC或裸機部署，並透過PrivateLink確保流量不經過公共網際網路。所有資料繼承Unity Catalog中已有的治理策略，無需單獨管理。此外，Unstructured與Databricks Unity AI Gateway整合，實現從原始文件到生產代理的完整審計鏈。

當非結構化資料成功接入湖倉後，AI代理能夠訪問完整的業務上下文，資料計劃不再受阻，工程團隊可以將更多時間用於構建核心功能，而非拼接系統。Unstructured與現有基礎設施並行工作，無需中斷已有的Databricks環境。

如果您正在參加2026年6月15-18日的Databricks Data + AI峰會，歡迎向我們展示最棘手的用例。Unstructured致力於將每一個文件、電子郵件和檔案轉化為湖倉中代理可用的、受治理的知識。