与所有数据对话,无论它在哪里
Databricks 推出 Lakehouse Federation,无需迁移即可连接外部数据源,并通过 Genie 进行自然语言查询,同时通过 Unity Catalog 保持治理一致性。
随着代理式AI的兴起,跨源推理的需求在12个月前还不存在,如今已成为业务用户的热切期望。他们希望用自然语言提问,例如“上个季度哪些营销活动带来了最高的投资回报率?”,并立即从数据中获得洞察。然而,企业数据通常分散在多个系统中,如 AWS Glue、Snowflake、Oracle、BigQuery、Postgres,有时还锁定在遗留专有格式中,将所有数据迁移到单一系统可能需要数月时间。
Databricks 的 Lakehouse Federation 提供了一种解决方案:无需迁移数据,即可在整个数据资产上进行推理。它直接连接到现有数据源,并将其纳入 Unity Catalog 的统一治理层。权限、血缘和访问控制在所有连接系统中一致工作,从而提供企业级安全性,无需逐个源重建。业务用户随后可以通过 Genie 用自然语言查询统一数据,获得跨越每个连接平台的答案,而无需单个管道、复制或迁移步骤。
以下是设置步骤的简要说明,以连接 AWS Glue 为例:
- 使用 Lakehouse Federation 连接外部数据源:创建到外部 AWS Glue 项目的连接,将数据原地同步到 Unity Catalog,无需复制数据,确保数据始终最新。
- 利用现有元数据:原始表和列名通常对AI模型无意义。Lakehouse Federation 会自动从源系统导入表描述、列注释和业务术语,使 Genie 能立即理解模式。目前支持 Glue 和 BigQuery 的注释导入,并预览对 PostgreSQL、Redshift、MySQL、Snowflake 的支持。
- 在联邦数据上定义可复用的语义:Unity Catalog Semantics 允许将业务逻辑(如 ROI 计算公式)定义为治理对象,使其在所有查询工具中一致计算。这些指标可以直接在联邦表上定义,无需迁移。
- 向 Genie 提问:数据连接并上下文化后,营销分析师可以在 Genie 房间中提问,Genie 会解析到认证的 ROI 度量,自动生成正确的 SQL,从 Glue 中的实时数据返回准确答案。
Lakehouse Federation 和 Genie 只是 Unity Catalog 赋能整个数据资产 AI 洞察的一个例子。未来,Databricks 将致力于:丰富联邦表的业务语义(AI 增强描述)、通过升级为托管表提升性能(节省50%以上成本、20倍更快查询)、以及增加更多的联邦支持平台。要开始使用,请阅读 Lakehouse Federation 文档,报名参与外部表注释预览,或开始免费试用 Databricks。