與所有數據對話,無論它在哪裏
Databricks 推出 Lakehouse Federation,無需遷移即可連接外部數據源,並通過 Genie 進行自然語言查詢,同時通過 Unity Catalog 保持治理一致性。
隨着代理式AI的興起,跨源推理的需求在12個月前還不存在,如今已成為業務用户的熱切期望。他們希望用自然語言提問,例如“上個季度哪些營銷活動帶來了最高的投資回報率?”,並立即從數據中獲得洞察。然而,企業數據通常分散在多個系統中,如 AWS Glue、Snowflake、Oracle、BigQuery、Postgres,有時還鎖定在遺留專有格式中,將所有數據遷移到單一系統可能需要數月時間。
Databricks 的 Lakehouse Federation 提供了一種解決方案:無需遷移數據,即可在整個數據資產上進行推理。它直接連接到現有數據源,並將其納入 Unity Catalog 的統一治理層。權限、血緣和訪問控制在所有連接系統中一致工作,從而提供企業級安全性,無需逐個源重建。業務用户隨後可以通過 Genie 用自然語言查詢統一數據,獲得跨越每個連接平台的答案,而無需單個管道、複製或遷移步驟。
以下是設置步驟的簡要説明,以連接 AWS Glue 為例:
- 使用 Lakehouse Federation 連接外部數據源:創建到外部 AWS Glue 項目的連接,將數據原地同步到 Unity Catalog,無需複製數據,確保數據始終最新。
- 利用現有元數據:原始表和列名通常對AI模型無意義。Lakehouse Federation 會自動從源系統導入表描述、列註釋和業務術語,使 Genie 能立即理解模式。目前支持 Glue 和 BigQuery 的註釋導入,並預覽對 PostgreSQL、Redshift、MySQL、Snowflake 的支持。
- 在聯邦數據上定義可複用的語義:Unity Catalog Semantics 允許將業務邏輯(如 ROI 計算公式)定義為治理對象,使其在所有查詢工具中一致計算。這些指標可以直接在聯邦表上定義,無需遷移。
- 向 Genie 提問:數據連接並上下文化後,營銷分析師可以在 Genie 房間中提問,Genie 會解析到認證的 ROI 度量,自動生成正確的 SQL,從 Glue 中的實時數據返回準確答案。
Lakehouse Federation 和 Genie 只是 Unity Catalog 賦能整個數據資產 AI 洞察的一個例子。未來,Databricks 將致力於:豐富聯邦表的業務語義(AI 增強描述)、通過升級為託管表提升性能(節省50%以上成本、20倍更快查詢)、以及增加更多的聯邦支持平台。要開始使用,請閲讀 Lakehouse Federation 文檔,報名參與外部表註釋預覽,或開始免費試用 Databricks。