2026-06-09站内改写1 分钟阅读更新: 2026-06-15

您的湖仓擅长处理结构化数据。非结构化数据是下一个目标。

本文探讨了企业AI代理无法访问组织中约80%的非结构化数据（如PDF、合同、电子邮件等）的问题，并介绍了Unstructured平台如何将这些数据转化为Databricks湖仓中代理可用的知识。文章强调了单一管道处理多种文件类型、遵循奖章架构、以及通过Unity Catalog实现治理的优势。

来源Unstructured Blog

企业正在向AI投入大量资金，但代理却未能发挥预期作用。问题的根源在于数据：AI代理只能访问组织中约20%的结构化数据，而其余80%的非结构化数据——PDF、合同、电子邮件、通话录音、扫描文档等——仍然无法触及。这些数据中蕴含着关键决策和机构知识，但当前的AI管道无法利用它们。

Databricks湖仓为结构化数据和AI提供了出色的基础，但非结构化数据的接入仍是一个挑战。Unstructured平台填补了这一空白：它能够从多种来源（如SharePoint、Salesforce、Google Drive等）提取内容，并通过单一管道完成提取、准确分块、元数据丰富和嵌入，最终将处理后的数据写入Unity Catalog。

Unstructured的输出可以映射到奖章架构：原始数据存入Bronze层，经过转换和丰富进入Silver层，最终根据用例存入Gold层——无论是供Agentic RAG使用的嵌入内容，还是供BI工具直接查询的结构化数据提取。该平台支持Iceberg表，尽管目前还不支持向量数据类型。

在治理方面，Unstructured遵循客户的安全模型，支持SaaS、混合SaaS、VPC或裸机部署，并通过PrivateLink确保流量不经过公共互联网。所有数据继承Unity Catalog中已有的治理策略，无需单独管理。此外，Unstructured与Databricks Unity AI Gateway集成，实现从原始文档到生产代理的完整审计链。

当非结构化数据成功接入湖仓后，AI代理能够访问完整的业务上下文，数据计划不再受阻，工程团队可以将更多时间用于构建核心功能，而非拼接系统。Unstructured与现有基础设施并行工作，无需中断已有的Databricks环境。

如果您正在参加2026年6月15-18日的Databricks Data + AI峰会，欢迎向我们展示最棘手的用例。Unstructured致力于将每一个文档、电子邮件和文件转化为湖仓中代理可用的、受治理的知识。