Lakeflow:エージェンティックデータエンジニアリングの新時代
Databricks は、インジェスト、変換、オーケストレーションを統合し、Unity Catalog で一元管理するプラットフォーム Lakeflow を発表。AI エージェントによるデータパイプラインの構築と運用を可能にする。新機能として、Genie Code 統合、Lakeflow Designer によるビジュアル開発、Genie ZeroOps による自動運用、100 以上のコネクタ、Zerobus による高性能インジェスト、Spark Declarative Pipelines のリアルタイムモードなど。
Databricks は Data + AI Summit で、Lakeflow プラットフォームの大幅なアップデートを発表し、エージェンティックデータエンジニアリングの新時代を切り拓きます。Lakeflow は、インジェスト、変換、オーケストレーションをカバーする統合データエンジニアリングプラットフォームであり、すべての機能が Unity Catalog と深く統合され、データ資産を一元管理します。この統一アーキテクチャにより、AI エージェントはデータパイプラインを構築するだけでなく、自律的に運用することが可能になります。
エージェンティックパイプライン開発:Genie Code と Lakeflow Designer
Genie Code は Lakeflow のあらゆる側面に統合されました。ユーザーは自然言語を使用してインジェストコネクタを作成し、Python や SQL でパイプラインを構築し、タスク、トリガー、依存関係を含むジョブを開発できます。このエンドツーエンドのコンテキスト理解は、統一されたデータエンジニアリングスタックによって実現されています。
Lakeflow Designer は一般提供が開始され、ドラッグアンドドロップのキャンバスと自然言語プロンプトを使用してパイプラインを開発できる、ビジュアルで AI 駆動のノーコードインターフェースです。ビジネスアナリストや非技術ユーザーでも、コードを書かずに本番対応の ETL パイプラインを構築できます。すべてのビジュアルフローは Spark Declarative Pipeline 上でネイティブに実行され、変換ロスはありません。データエンジニアはその場でコードをレビュー・最適化でき、コンテキストの切り替えは不要です。
エージェンティック運用:Genie ZeroOps
本日発表された Genie ZeroOps は、データと AI 資産を監視・管理する専用のバックグラウンド AI エージェントです。障害を検出し、Unity Catalog のデータ品質メトリクス、エラーログ、および系列情報を使用して根本原因分析を実行します。さらに、修正案を生成し、Unity Catalog で管理される安全なサンドボックス環境で検証します。修正の適用は人間が介在する形で行われ、Genie ZeroOps が重労働を担い、ユーザーは制御を維持します。
Lakeflow Connect:急速に成長するエコシステム
Lakeflow Connect は現在、エンタープライズアプリケーション、データベース、ファイルソース、クラウドストレージ向けに 100 以上のネイティブマネージドコネクタをサポートしています。新たに追加されたコネクタには、Jira、GitHub、Confluence などのエンタープライズ知識管理向け、Meta Ads、TikTok Ads、Google Ads、HubSpot などのマーケティングテクノロジー向け、そしてログとテレメトリを一元化する IT セキュリティ運用向けが含まれます。また、クエリベースの変更データキャプチャ(GA)とコミュニティコネクタ(ベータ)も提供されます。Panasonic は Lakeflow Connect を使用して Power BI の更新時間を 50% 削減しました。
Zerobus Ingest:Kafka 不要の高性能インジェスト
Zerobus Ingest は、5 秒未満のニアリアルタイム書き込みと、テーブルあたり 10GB/s を超える高スループットを実現します。新たに Kafka 互換 API(ベータ)、gRPC および REST API(GA)、多言語 SDK、OpenTelemetry 統合を追加しました。Meta は Zerobus を使用してオンプレミスデータセンターとクラウド間の低レイテンシブリッジを実現しています。
Spark Declarative Pipelines:リアルタイムモードが公開プレビューに
Spark Declarative Pipelines 向けリアルタイムモード(RTM)は、エンドツーエンドのレイテンシを 5 ミリ秒まで低減し、専用エンジンの管理を不要にします。RTM はバージョンレス実行、自動インフラストラクチャアップグレード、低ダウンタイムメンテナンスを提供します。また、Append、Auto CDC、Incremental Replace Where、Materialized View などの宣言的 API が Databricks SQL で利用可能になり、今後数週間でサーバーレスノートブックと Lakeflow Designer にも展開されます。
Lakeflow Jobs:50 以上の統合とデータ認識オーケストレーション
Lakeflow Jobs は 50 以上の統合をサポートし、データ認識オーケストレーションを導入します。ユーザーは平易な英語でデータ準備完了条件を定義でき、条件が満たされると自動的にジョブがトリガーされます。また、外部オーケストレーション機能により、Snowflake ジョブ、REST API、Slack アラートなどを統合でき、すべての認証情報は Unity Catalog を通じて管理され、完全な監査証跡が提供されます。