2026-06-16站内改写2 分钟阅读更新: 2026-06-16

Genie ZeroOps 发布：让数据和AI运营进入自动驾驶模式

Databricks 推出 Genie ZeroOps，一个内置于平台的后台智能体，能够自主监控、调查并修复数据管道、作业、表格和ML模型等问题。它利用全面的可观测性、数据血缘和沙箱环境进行安全验证，旨在将数据团队从繁重的运维工作中解放出来。

来源Databricks Blog

数据团队长期以来面临一个棘手问题：大部分时间用于维护而非创新。随着AI加速管道和模型的构建，运维负担日益加重。虽然编码智能体有助于构建，但它们无法自动化运维，因为它们不属于数据平台，无法访问指标、日志和血缘信息，更不能安全操作生产数据。

Databricks 最新推出的 Genie ZeroOps 正是为解决这一痛点而设计。它是一个内置于 Databricks 平台的后台智能体，能够自主监控、调查并修复数据与AI资产，包括管道、作业、表格和机器学习模型。Genie ZeroOps 运行在平台内部，因此可以安全、便捷地访问完整的可观测性数据（指标、事件、日志、运行历史），通过 Unity Catalog 获取数据血缘，并利用零拷贝克隆技术创建隔离的沙箱环境来验证修复方案，确保不触及生产数据。

当故障发生时，Genie ZeroOps 遵循一套完整的流程：检测——持续监控，甚至能捕捉到数据质量指标中出现的静默故障；评估——利用血缘图谱追溯根因，可能是代码错误、上游表结构变更或其他管道引入的脏数据；修复——基于代码生成和开发工作流上下文（如GitHub PR、Jira问题）生成修复方案；验证——在隔离沙箱中使用真实数据的零拷贝克隆进行测试，只有经用户批准后才会应用到生产环境。

为什么通用编码智能体无法胜任数据与AI运维？数据工程和AI运维与软件工程有本质区别：上下文不仅包含代码，还涉及数据；故障可能无声无息且持久存在；生产数据敏感且受严格管控。编码智能体在检测阶段缺乏遥测上下文，评估阶段无法访问血缘，而最关键的验证步骤几乎无法实现——因为验证需要针对真实生产数据在隔离环境中测试代码修复，外部智能体根本无法安全接触这些数据。

Genie ZeroOps 作为数据平台的一部分，完美解决了验证难题。对于机器学习工作负载，它尤为出色：模型即使没有管道错误也可能产生错误预测，Genie ZeroOps 能诊断原因，构建候选修正模型，并在不影响实时流量的情况下验证。它利用与 Databricks ML 栈（特征存储、MLflow、模型服务、notebooks）的原生集成，理解模型使用的特征和评估标准，像资深ML工程师一样推理。

用户完全掌控整个过程：可以配置哪些资产被监控以及授权的操作范围；所有操作在 Unity Catalog 治理下进行，仅访问用户凭据允许的数据；问题按严重程度排序呈现在收件箱式UI中，每项附有根因分析和修复建议；未经批准不会应用到生产。沙箱环境是信任的技术基础：零拷贝确保用真实数据测试但不影响生产，权限和网络隔离防止越界。

Genie ZeroOps 即将在未来几周内进入私有预览，首批支持作业、管道、表格和ML工作负载，应用和 Lakebase 数据库也在路线图中。用户可通过 Databricks 客户团队申请早期访问。