AI News HubLIVE
站内改写2 分钟阅读

Genie ZeroOps 发布:让数据和AI运营进入自动驾驶模式

Databricks 推出 Genie ZeroOps,一个内置于平台的后台智能体,能够自主监控、调查并修复数据管道、作业、表格和ML模型等问题。它利用全面的可观测性、数据血缘和沙箱环境进行安全验证,旨在将数据团队从繁重的运维工作中解放出来。

数据团队长期以来面临一个棘手问题:大部分时间用于维护而非创新。随着AI加速管道和模型的构建,运维负担日益加重。虽然编码智能体有助于构建,但它们无法自动化运维,因为它们不属于数据平台,无法访问指标、日志和血缘信息,更不能安全操作生产数据。

Databricks 最新推出的 Genie ZeroOps 正是为解决这一痛点而设计。它是一个内置于 Databricks 平台的后台智能体,能够自主监控、调查并修复数据与AI资产,包括管道、作业、表格和机器学习模型。Genie ZeroOps 运行在平台内部,因此可以安全、便捷地访问完整的可观测性数据(指标、事件、日志、运行历史),通过 Unity Catalog 获取数据血缘,并利用零拷贝克隆技术创建隔离的沙箱环境来验证修复方案,确保不触及生产数据。

当故障发生时,Genie ZeroOps 遵循一套完整的流程:检测——持续监控,甚至能捕捉到数据质量指标中出现的静默故障;评估——利用血缘图谱追溯根因,可能是代码错误、上游表结构变更或其他管道引入的脏数据;修复——基于代码生成和开发工作流上下文(如GitHub PR、Jira问题)生成修复方案;验证——在隔离沙箱中使用真实数据的零拷贝克隆进行测试,只有经用户批准后才会应用到生产环境。

为什么通用编码智能体无法胜任数据与AI运维?数据工程和AI运维与软件工程有本质区别:上下文不仅包含代码,还涉及数据;故障可能无声无息且持久存在;生产数据敏感且受严格管控。编码智能体在检测阶段缺乏遥测上下文,评估阶段无法访问血缘,而最关键的验证步骤几乎无法实现——因为验证需要针对真实生产数据在隔离环境中测试代码修复,外部智能体根本无法安全接触这些数据。

Genie ZeroOps 作为数据平台的一部分,完美解决了验证难题。对于机器学习工作负载,它尤为出色:模型即使没有管道错误也可能产生错误预测,Genie ZeroOps 能诊断原因,构建候选修正模型,并在不影响实时流量的情况下验证。它利用与 Databricks ML 栈(特征存储、MLflow、模型服务、notebooks)的原生集成,理解模型使用的特征和评估标准,像资深ML工程师一样推理。

用户完全掌控整个过程:可以配置哪些资产被监控以及授权的操作范围;所有操作在 Unity Catalog 治理下进行,仅访问用户凭据允许的数据;问题按严重程度排序呈现在收件箱式UI中,每项附有根因分析和修复建议;未经批准不会应用到生产。沙箱环境是信任的技术基础:零拷贝确保用真实数据测试但不影响生产,权限和网络隔离防止越界。

Genie ZeroOps 即将在未来几周内进入私有预览,首批支持作业、管道、表格和ML工作负载,应用和 Lakebase 数据库也在路线图中。用户可通过 Databricks 客户团队申请早期访问。

Genie ZeroOps 发布:让数据和AI运营进入自动驾驶模式 | AI News Hub