AI News HubLIVE
站内改写1 分钟阅读

您的湖仓擅长处理结构化数据。非结构化数据是下一个目标。

本文探讨了企业AI代理无法访问组织中约80%的非结构化数据(如PDF、合同、电子邮件等)的问题,并介绍了Unstructured平台如何将这些数据转化为Databricks湖仓中代理可用的知识。文章强调了单一管道处理多种文件类型、遵循奖章架构、以及通过Unity Catalog实现治理的优势。

企业正在向AI投入大量资金,但代理却未能发挥预期作用。问题的根源在于数据:AI代理只能访问组织中约20%的结构化数据,而其余80%的非结构化数据——PDF、合同、电子邮件、通话录音、扫描文档等——仍然无法触及。这些数据中蕴含着关键决策和机构知识,但当前的AI管道无法利用它们。

Databricks湖仓为结构化数据和AI提供了出色的基础,但非结构化数据的接入仍是一个挑战。Unstructured平台填补了这一空白:它能够从多种来源(如SharePoint、Salesforce、Google Drive等)提取内容,并通过单一管道完成提取、准确分块、元数据丰富和嵌入,最终将处理后的数据写入Unity Catalog。

Unstructured的输出可以映射到奖章架构:原始数据存入Bronze层,经过转换和丰富进入Silver层,最终根据用例存入Gold层——无论是供Agentic RAG使用的嵌入内容,还是供BI工具直接查询的结构化数据提取。该平台支持Iceberg表,尽管目前还不支持向量数据类型。

在治理方面,Unstructured遵循客户的安全模型,支持SaaS、混合SaaS、VPC或裸机部署,并通过PrivateLink确保流量不经过公共互联网。所有数据继承Unity Catalog中已有的治理策略,无需单独管理。此外,Unstructured与Databricks Unity AI Gateway集成,实现从原始文档到生产代理的完整审计链。

当非结构化数据成功接入湖仓后,AI代理能够访问完整的业务上下文,数据计划不再受阻,工程团队可以将更多时间用于构建核心功能,而非拼接系统。Unstructured与现有基础设施并行工作,无需中断已有的Databricks环境。

如果您正在参加2026年6月15-18日的Databricks Data + AI峰会,欢迎向我们展示最棘手的用例。Unstructured致力于将每一个文档、电子邮件和文件转化为湖仓中代理可用的、受治理的知识。