Lakeflow:智慧體資料工程的新時代
Databricks 推出 Lakeflow 統一平臺,整合資料攝取、轉換和編排,由 Unity Catalog 統一治理,支援 AI 智慧體構建和運維資料管道。新功能包括 Genie Code 整合、Lakeflow Designer 視覺化開發、Genie ZeroOps 自動運維、100+ 聯結器、Zerobus 高效能攝取及 Spark Declarative Pipelines 即時模式。
Databricks 在 Data + AI Summit 上宣佈了 Lakeflow 平臺的重大更新,標誌著智慧體資料工程進入新時代。Lakeflow 是一個統一的資料工程平臺,涵蓋資料攝取、轉換和編排,所有功能均與 Unity Catalog 深度整合,確保資料資產得到中央治理。這一統一架構為 AI 智慧體提供了單一、可信的即時資料來源,使其不僅能構建資料管道,還能自主運維管道。
智慧體式管道開發:Genie Code 與 Lakeflow Designer
Genie Code 現已全面整合到 Lakeflow 的各個方面。使用者可以透過自然語言生成攝取聯結器、用 Python 和 SQL 構建管道,以及開發包含任務、觸發器和依賴關係的作業。這種端到端的上下文能力得益於統一的資料工程堆疊。
Lakeflow Designer 現已正式釋出,這是一個視覺化、AI 驅動的無程式碼介面,允許使用者透過拖拽畫布和自然語言提示來開發管道。業務分析師和非技術使用者無需編寫程式碼即可構建生產級的 ETL 管道。每個視覺化流程都原生執行在 Spark Declarative Pipeline 上,確保零轉換損失。資料工程師可以就地審查和最佳化程式碼,無需切換上下文或重寫邏輯。
智慧體式運維:Genie ZeroOps
當天釋出的 Genie ZeroOps 是一個後臺 AI 代理,專門用於監控和管理資料與 AI 資產。它能檢測故障並利用 Unity Catalog 中的資料質量指標、錯誤日誌和血緣資訊進行根因分析。隨後,ZeroOps 會生成修復建議,並在受 Unity Catalog 管理的安全沙箱環境中驗證。修復應用遵循“人在迴路”原則,確保使用者保持控制。
Lakeflow Connect:快速增長的生態系統
Lakeflow Connect 現支援超過 100 個原生託管聯結器,覆蓋企業應用、資料庫、檔案源和雲端儲存。新增聯結器包括 Jira、GitHub、Confluence、SharePoint、Google Drive、Outlook 等,用於企業知識管理;Meta Ads、TikTok Ads、Google Ads、HubSpot 等用於市場營銷技術;以及日誌與遙測資料用於 IT 安全運維。同時提供查詢式變更捕獲(GA)和社群聯結器(Beta),Panasonic 等客戶已透過 Lakeflow Connect 實現了 50% 的 Power BI 重新整理時間縮減。
Zerobus Ingest:無 Kafka 高效能攝取
Zerobus Ingest 支援近即時寫入(5 秒內)和高吞吐量(每表超 10GB/s)。新增 Kafka 相容 API(Beta)、gRPC 和 REST API(GA)、多語言 SDK 以及 OpenTelemetry 整合。Meta 等企業已將其用於本地資料中心到雲端的低延遲橋接。
Spark Declarative Pipelines:即時模式公開發布
即時模式(RTM)現可用於 Spark Declarative Pipelines,實現低至 5 毫秒的端到端延遲,無需管理獨立引擎。該模式支援版本化執行、自動基礎設施升級和低停機維護。同時,宣告式 API(包括 Append、Auto CDC、Incremental Replace Where 和 Materialized View)現已在 Databricks SQL 中可用,並即將在伺服器版筆記本和 Lakeflow Designer 中推出。
Lakeflow Jobs:50+ 整合與資料感知編排
Lakeflow Jobs 現支援 50 多種整合,並引入資料感知編排:使用者可用自然語言定義資料就緒條件,管道在條件滿足時自動觸發。此外,外部編排功能可擴充套件至 Snowflake、REST API、Slack 等外部系統,所有憑據透過 Unity Catalog 管理並提供完整審計跟蹤。