AI News HubLIVE
站内改写2 分鐘閱讀

Lakeflow:智能體數據工程的新時代

Databricks 推出 Lakeflow 統一平台,整合數據攝取、轉換和編排,由 Unity Catalog 統一治理,支持 AI 智能體構建和運維數據管道。新功能包括 Genie Code 集成、Lakeflow Designer 可視化開發、Genie ZeroOps 自動運維、100+ 連接器、Zerobus 高性能攝取及 Spark Declarative Pipelines 實時模式。

Databricks 在 Data + AI Summit 上宣佈了 Lakeflow 平台的重大更新,標誌着智能體數據工程進入新時代。Lakeflow 是一個統一的數據工程平台,涵蓋數據攝取、轉換和編排,所有功能均與 Unity Catalog 深度集成,確保數據資產得到中央治理。這一統一架構為 AI 智能體提供了單一、可信的實時數據源,使其不僅能構建數據管道,還能自主運維管道。

智能體式管道開發:Genie Code 與 Lakeflow Designer

Genie Code 現已全面集成到 Lakeflow 的各個方面。用户可以通過自然語言生成攝取連接器、用 Python 和 SQL 構建管道,以及開發包含任務、觸發器和依賴關係的作業。這種端到端的上下文能力得益於統一的數據工程堆棧。

Lakeflow Designer 現已正式發佈,這是一個可視化、AI 驅動的無代碼界面,允許用户通過拖拽畫布和自然語言提示來開發管道。業務分析師和非技術用户無需編寫代碼即可構建生產級的 ETL 管道。每個可視化流程都原生運行在 Spark Declarative Pipeline 上,確保零轉換損失。數據工程師可以就地審查和優化代碼,無需切換上下文或重寫邏輯。

智能體式運維:Genie ZeroOps

當天發佈的 Genie ZeroOps 是一個後台 AI 代理,專門用於監控和管理數據與 AI 資產。它能檢測故障並利用 Unity Catalog 中的數據質量指標、錯誤日誌和血緣信息進行根因分析。隨後,ZeroOps 會生成修復建議,並在受 Unity Catalog 管理的安全沙箱環境中驗證。修復應用遵循“人在迴路”原則,確保用户保持控制。

Lakeflow Connect:快速增長的生態系統

Lakeflow Connect 現支持超過 100 個原生託管連接器,覆蓋企業應用、數據庫、文件源和雲存儲。新增連接器包括 Jira、GitHub、Confluence、SharePoint、Google Drive、Outlook 等,用於企業知識管理;Meta Ads、TikTok Ads、Google Ads、HubSpot 等用於市場營銷技術;以及日誌與遙測數據用於 IT 安全運維。同時提供查詢式變更捕獲(GA)和社區連接器(Beta),Panasonic 等客户已通過 Lakeflow Connect 實現了 50% 的 Power BI 刷新時間縮減。

Zerobus Ingest:無 Kafka 高性能攝取

Zerobus Ingest 支持近實時寫入(5 秒內)和高吞吐量(每表超 10GB/s)。新增 Kafka 兼容 API(Beta)、gRPC 和 REST API(GA)、多語言 SDK 以及 OpenTelemetry 集成。Meta 等企業已將其用於本地數據中心到雲端的低延遲橋接。

Spark Declarative Pipelines:實時模式公開發布

實時模式(RTM)現可用於 Spark Declarative Pipelines,實現低至 5 毫秒的端到端延遲,無需管理獨立引擎。該模式支持版本化執行、自動基礎設施升級和低停機維護。同時,聲明式 API(包括 Append、Auto CDC、Incremental Replace Where 和 Materialized View)現已在 Databricks SQL 中可用,並即將在服務器版筆記本和 Lakeflow Designer 中推出。

Lakeflow Jobs:50+ 集成與數據感知編排

Lakeflow Jobs 現支持 50 多種集成,並引入數據感知編排:用户可用自然語言定義數據就緒條件,管道在條件滿足時自動觸發。此外,外部編排功能可擴展至 Snowflake、REST API、Slack 等外部系統,所有憑據通過 Unity Catalog 管理並提供完整審計跟蹤。

Lakeflow:智能體數據工程的新時代 | AI News Hub