Lakeflow:智能体数据工程的新时代
Databricks 推出 Lakeflow 统一平台,整合数据摄取、转换和编排,由 Unity Catalog 统一治理,支持 AI 智能体构建和运维数据管道。新功能包括 Genie Code 集成、Lakeflow Designer 可视化开发、Genie ZeroOps 自动运维、100+ 连接器、Zerobus 高性能摄取及 Spark Declarative Pipelines 实时模式。
Databricks 在 Data + AI Summit 上宣布了 Lakeflow 平台的重大更新,标志着智能体数据工程进入新时代。Lakeflow 是一个统一的数据工程平台,涵盖数据摄取、转换和编排,所有功能均与 Unity Catalog 深度集成,确保数据资产得到中央治理。这一统一架构为 AI 智能体提供了单一、可信的实时数据源,使其不仅能构建数据管道,还能自主运维管道。
智能体式管道开发:Genie Code 与 Lakeflow Designer
Genie Code 现已全面集成到 Lakeflow 的各个方面。用户可以通过自然语言生成摄取连接器、用 Python 和 SQL 构建管道,以及开发包含任务、触发器和依赖关系的作业。这种端到端的上下文能力得益于统一的数据工程堆栈。
Lakeflow Designer 现已正式发布,这是一个可视化、AI 驱动的无代码界面,允许用户通过拖拽画布和自然语言提示来开发管道。业务分析师和非技术用户无需编写代码即可构建生产级的 ETL 管道。每个可视化流程都原生运行在 Spark Declarative Pipeline 上,确保零转换损失。数据工程师可以就地审查和优化代码,无需切换上下文或重写逻辑。
智能体式运维:Genie ZeroOps
当天发布的 Genie ZeroOps 是一个后台 AI 代理,专门用于监控和管理数据与 AI 资产。它能检测故障并利用 Unity Catalog 中的数据质量指标、错误日志和血缘信息进行根因分析。随后,ZeroOps 会生成修复建议,并在受 Unity Catalog 管理的安全沙箱环境中验证。修复应用遵循“人在回路”原则,确保用户保持控制。
Lakeflow Connect:快速增长的生态系统
Lakeflow Connect 现支持超过 100 个原生托管连接器,覆盖企业应用、数据库、文件源和云存储。新增连接器包括 Jira、GitHub、Confluence、SharePoint、Google Drive、Outlook 等,用于企业知识管理;Meta Ads、TikTok Ads、Google Ads、HubSpot 等用于市场营销技术;以及日志与遥测数据用于 IT 安全运维。同时提供查询式变更捕获(GA)和社区连接器(Beta),Panasonic 等客户已通过 Lakeflow Connect 实现了 50% 的 Power BI 刷新时间缩减。
Zerobus Ingest:无 Kafka 高性能摄取
Zerobus Ingest 支持近实时写入(5 秒内)和高吞吐量(每表超 10GB/s)。新增 Kafka 兼容 API(Beta)、gRPC 和 REST API(GA)、多语言 SDK 以及 OpenTelemetry 集成。Meta 等企业已将其用于本地数据中心到云端的低延迟桥接。
Spark Declarative Pipelines:实时模式公开发布
实时模式(RTM)现可用于 Spark Declarative Pipelines,实现低至 5 毫秒的端到端延迟,无需管理独立引擎。该模式支持版本化执行、自动基础设施升级和低停机维护。同时,声明式 API(包括 Append、Auto CDC、Incremental Replace Where 和 Materialized View)现已在 Databricks SQL 中可用,并即将在服务器版笔记本和 Lakeflow Designer 中推出。
Lakeflow Jobs:50+ 集成与数据感知编排
Lakeflow Jobs 现支持 50 多种集成,并引入数据感知编排:用户可用自然语言定义数据就绪条件,管道在条件满足时自动触发。此外,外部编排功能可扩展至 Snowflake、REST API、Slack 等外部系统,所有凭据通过 Unity Catalog 管理并提供完整审计跟踪。