AI News HubLIVE
站内改写

Unity Catalog 与 Apache Iceberg™ 的新时代

Databricks 宣布 Unity Catalog 成为最全面、互操作性最强且生产就绪的 Apache Iceberg 目录,新增托管 Iceberg、Iceberg v3 和外部 Iceberg 等功能。五大能力包括开放 API、目录联邦、跨引擎访问控制、零拷贝安全共享和 AI 驱动的优化。未来 Iceberg v4 和 Delta 5.0 将融合统一元数据结构。

文章情报

工程师中级

要点

  • Unity Catalog 现已支持托管 Iceberg、Iceberg v3 和外部 Iceberg,并正式上线。
  • 五大关键能力:开放 API、目录联邦、跨引擎属性访问控制、零拷贝安全共享和 AI 优化。
  • Iceberg v4 和 Delta 5.0 计划采用统一的元数据树结构,消除互操作性与生产性能之间的权衡。

为什么重要

这条新闻值得关注,因为Unity Catalog 现已支持托管 Iceberg、Iceberg v3 和外部 Iceberg,并正式上线。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Databricks 近日宣布,Unity Catalog 已成为目前最全面、互操作性最强且生产就绪的 Apache Iceberg 目录。随着托管 Iceberg、Iceberg v3 和外部 Iceberg 等功能进入正式发布(GA)阶段,企业现在可以在一个统一的目录下管理、优化和共享 Iceberg 数据湖。

Unity Catalog 的五大核心能力使其在市场上脱颖而出。首先,开放 API 和凭证分发功能允许客户使用任何兼容 Iceberg REST 目录 API 的引擎(如 Spark、Trino、DuckDB)直接读写托管 Iceberg 表,无需复制数据或授予广泛的存储权限。其次,目录联邦功能支持将外部目录(如 AWS Glue、Snowflake Horizon、Google Cloud Lakehouse 等)中的 Iceberg 表注册到 Unity Catalog,实现单一管理视图。第三,跨引擎属性访问控制(ABAC)在 Beta 阶段即可通过 Iceberg REST 目录扫描 API 对 Iceberg 客户端强制执行细粒度策略,确保治理一致性。第四,零拷贝安全共享允许通过 Delta Sharing 协议将实时数据共享给任何 Iceberg REST 兼容客户端,无需手动摄取。第五,AI 驱动的性能优化,如预测优化和 Liquid Clustering,可自动调整表的数据布局,减少手动维护开销。

展望未来,Databricks 正在推动 Iceberg v4 和 Delta 5.0 的融合,两者将采用自适应的元数据树结构,从而消除互操作性与生产级性能之间的取舍。这意味着所有托管表都将通过 Unity Catalog 自动优化,通过开放 API 治理,并可供任何引擎使用,从而真正实现开放湖仓的愿景。此外,Databricks 还宣布 Iceberg v3 支持删除向量、行追踪和 VARIANT 类型,进一步弥合性能与互操作性之间的差距。这些创新使得 Unity Catalog 成为 Apache Iceberg 的最佳目录选择,为企业提供开放、高性能且易于治理的数据湖解决方案。