AI News HubLIVE
站内改写

Databricks 宣布 Lakebase 变更数据馈送 (CDF) 公开预览

Databricks 宣布 Lakebase 变更数据馈送 (CDF) 公开预览,该功能将操作数据库的变更数据捕获直接集成到 Lakehouse 中,通过 Unity Catalog 管理,无需复杂管道即可供所有引擎、模型和代理读取。

文章情报

工程师中级

要点

  • Lakebase CDF 可在不到一分钟内启用,应用于项目内所有表。
  • 下游消费者可订阅同一馈送,与操作工作负载完全隔离。
  • 操作数据库成为原生 Bronze 层,实现跨数据生命周期的完整治理和沿袭。

为什么重要

这条新闻值得关注,因为Lakebase CDF 可在不到一分钟内启用,应用于项目内所有表。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Databricks 今日宣布 Lakebase 变更数据馈送 (CDF) 公开预览,这是一项突破性功能,旨在大幅简化操作数据库与 Lakehouse 之间的数据集成。传统上,将操作数据库中的数据迁移到数据湖是一项繁琐且易出错的任务,团队需要为每个数据源和目标单独设置和维护提取管道,这不仅脆弱且难以管控,而且人力投入随着数据源数量的增加而线性增长。许多团队为此耗费大量精力,却仍面临数据延迟、一致性问题以及治理盲区。

Lakebase CDF 彻底改变了这一局面。通过将变更数据捕获(CDC)原生集成到 Lakebase 中,并利用 Unity Catalog 托管表进行存储和治理,用户只需启用一次馈送,即可让所有引擎、模型和代理直接读取数据,无需再构建额外的提取、转换和加载(ETL)管道。这一机制使得操作数据能够实时、高效地流入 Lakehouse,同时保持数据的完整性和可追溯性。

为什么将操作数据纳入数据湖仍然如此困难?尽管 Lakeflow Connect 已经使数据摄入 Lakehouse 变得轻而易举,但从 OLTP 数据库中提取数据仍然是一个手动且高摩擦的过程。变更数据捕获(CDC)的提取要求团队配置数据库连接器、监控复制状态、减轻性能影响,并通过各种脱节工具追踪错误。在依赖快速数据分支的代理优先开发模式下,这种模型难以为继。为每个新分支到每个目标维护复杂且缺乏管控的提取管道是不可持续的。

我们在 Lakehouse 中解决了这个问题。现在,我们将其引入 Lakebase。Lakehouse 通过以开放格式(如 Apache Iceberg 和 Delta Lake)一次性存储数据,消除了分析用的提取管道,并将变更数据馈送(CDF)确立为下游复制的标准,为 ETL、流式工作流和审计日志提供动力。现在,用户可以在 Lakebase 上原生设置 CDF,启用过程不到一分钟,即可应用于项目内的所有表。从这个单一馈送出发,用户可以使用 SDP 构建流式管道,使用 DBSQL 生成物化视图,或者使用 AgentBricks 计算并存储嵌入。所有下游消费者都订阅同一馈送,与主要操作工作负载完全隔离。

操作数据库在奖章架构中扮演着关键角色。Synced Tables 已经确立了将 Gold 数据集直接服务于应用的模式。Lakebase CDF 完善了这一架构——操作数据库现在成为原生的 Bronze 层,无需单独的管道或提取作业即可将数据落地到 Lakehouse。通过 Unity Catalog,团队可以获得跨数据生命周期的完整治理和沿袭。这仅仅是开始,Databricks 正在将 Lakehouse 的开放性直接带到 Lakebase。敬请关注 Data and AI Summit,并参加关于此架构的分组讨论:“零 ETL 只是开始:操作数据库应归属奖章架构”。