AI News HubLIVE
站内改写1 分鐘閱讀

您的湖倉擅長處理結構化數據。非結構化數據是下一個目標。

本文探討了企業AI代理無法訪問組織中約80%的非結構化數據(如PDF、合同、電子郵件等)的問題,並介紹了Unstructured平台如何將這些數據轉化為Databricks湖倉中代理可用的知識。文章強調了單一管道處理多種文件類型、遵循獎章架構、以及通過Unity Catalog實現治理的優勢。

企業正在向AI投入大量資金,但代理卻未能發揮預期作用。問題的根源在於數據:AI代理只能訪問組織中約20%的結構化數據,而其餘80%的非結構化數據——PDF、合同、電子郵件、通話錄音、掃描文檔等——仍然無法觸及。這些數據中藴含着關鍵決策和機構知識,但當前的AI管道無法利用它們。

Databricks湖倉為結構化數據和AI提供了出色的基礎,但非結構化數據的接入仍是一個挑戰。Unstructured平台填補了這一空白:它能夠從多種來源(如SharePoint、Salesforce、Google Drive等)提取內容,並通過單一管道完成提取、準確分塊、元數據豐富和嵌入,最終將處理後的數據寫入Unity Catalog。

Unstructured的輸出可以映射到獎章架構:原始數據存入Bronze層,經過轉換和豐富進入Silver層,最終根據用例存入Gold層——無論是供Agentic RAG使用的嵌入內容,還是供BI工具直接查詢的結構化數據提取。該平台支持Iceberg表,儘管目前還不支持向量數據類型。

在治理方面,Unstructured遵循客户的安全模型,支持SaaS、混合SaaS、VPC或裸機部署,並通過PrivateLink確保流量不經過公共互聯網。所有數據繼承Unity Catalog中已有的治理策略,無需單獨管理。此外,Unstructured與Databricks Unity AI Gateway集成,實現從原始文檔到生產代理的完整審計鏈。

當非結構化數據成功接入湖倉後,AI代理能夠訪問完整的業務上下文,數據計劃不再受阻,工程團隊可以將更多時間用於構建核心功能,而非拼接系統。Unstructured與現有基礎設施並行工作,無需中斷已有的Databricks環境。

如果您正在參加2026年6月15-18日的Databricks Data + AI峯會,歡迎向我們展示最棘手的用例。Unstructured致力於將每一個文檔、電子郵件和文件轉化為湖倉中代理可用的、受治理的知識。