AI News HubLIVE
站内改写

Unity Catalog 與 Apache Iceberg™ 的新時代

Databricks 宣佈 Unity Catalog 成為最全面、互操作性最強且生產就緒的 Apache Iceberg 目錄,新增託管 Iceberg、Iceberg v3 和外部 Iceberg 等功能。五大能力包括開放 API、目錄聯邦、跨引擎訪問控制、零複製安全共享和 AI 驅動的最佳化。未來 Iceberg v4 和 Delta 5.0 將融合統一後設資料結構。

文章情報

工程師中級

要點

  • Unity Catalog 現已支援託管 Iceberg、Iceberg v3 和外部 Iceberg,並正式上線。
  • 五大關鍵能力:開放 API、目錄聯邦、跨引擎屬性訪問控制、零複製安全共享和 AI 最佳化。
  • Iceberg v4 和 Delta 5.0 計劃採用統一的後設資料樹結構,消除互操作性與生產效能之間的權衡。

為什麼重要

這條新聞值得關注,因為Unity Catalog 現已支援託管 Iceberg、Iceberg v3 和外部 Iceberg,並正式上線。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Databricks 近日宣佈,Unity Catalog 已成為目前最全面、互操作性最強且生產就緒的 Apache Iceberg 目錄。隨著託管 Iceberg、Iceberg v3 和外部 Iceberg 等功能進入正式釋出(GA)階段,企業現在可以在一個統一的目錄下管理、最佳化和共享 Iceberg 資料湖。

Unity Catalog 的五大核心能力使其在市場上脫穎而出。首先,開放 API 和憑證分發功能允許客戶使用任何相容 Iceberg REST 目錄 API 的引擎(如 Spark、Trino、DuckDB)直接讀寫託管 Iceberg 表,無需複製資料或授予廣泛的儲存許可權。其次,目錄聯邦功能支援將外部目錄(如 AWS Glue、Snowflake Horizon、Google Cloud Lakehouse 等)中的 Iceberg 表註冊到 Unity Catalog,實現單一管理檢視。第三,跨引擎屬性訪問控制(ABAC)在 Beta 階段即可透過 Iceberg REST 目錄掃描 API 對 Iceberg 客戶端強制執行細粒度策略,確保治理一致性。第四,零複製安全共享允許透過 Delta Sharing 協議將即時資料共享給任何 Iceberg REST 相容客戶端,無需手動攝取。第五,AI 驅動的效能最佳化,如預測最佳化和 Liquid Clustering,可自動調整表的資料佈局,減少手動維護開銷。

展望未來,Databricks 正在推動 Iceberg v4 和 Delta 5.0 的融合,兩者將採用自適應的後設資料樹結構,從而消除互操作性與生產級效能之間的取捨。這意味著所有託管表都將透過 Unity Catalog 自動最佳化,透過開放 API 治理,並可供任何引擎使用,從而真正實現開放湖倉的願景。此外,Databricks 還宣佈 Iceberg v3 支援刪除向量、行追蹤和 VARIANT 型別,進一步彌合效能與互操作性之間的差距。這些創新使得 Unity Catalog 成為 Apache Iceberg 的最佳目錄選擇,為企業提供開放、高效能且易於治理的資料湖解決方案。