2026-06-16站内改写2 分鐘閱讀更新: 2026-06-16

Genie ZeroOps 發佈：讓數據和AI運營進入自動駕駛模式

Databricks 推出 Genie ZeroOps，一個內置於平台的後台智能體，能夠自主監控、調查並修復數據管道、作業、表格和ML模型等問題。它利用全面的可觀測性、數據血緣和沙箱環境進行安全驗證，旨在將數據團隊從繁重的運維工作中解放出來。

來源Databricks Blog

數據團隊長期以來面臨一個棘手問題：大部分時間用於維護而非創新。隨着AI加速管道和模型的構建，運維負擔日益加重。雖然編碼智能體有助於構建，但它們無法自動化運維，因為它們不屬於數據平台，無法訪問指標、日誌和血緣信息，更不能安全操作生產數據。

Databricks 最新推出的 Genie ZeroOps 正是為解決這一痛點而設計。它是一個內置於 Databricks 平台的後台智能體，能夠自主監控、調查並修復數據與AI資產，包括管道、作業、表格和機器學習模型。Genie ZeroOps 運行在平台內部，因此可以安全、便捷地訪問完整的可觀測性數據（指標、事件、日誌、運行歷史），通過 Unity Catalog 獲取數據血緣，並利用零拷貝克隆技術創建隔離的沙箱環境來驗證修復方案，確保不觸及生產數據。

當故障發生時，Genie ZeroOps 遵循一套完整的流程：檢測——持續監控，甚至能捕捉到數據質量指標中出現的靜默故障；評估——利用血緣圖譜追溯根因，可能是代碼錯誤、上游表結構變更或其他管道引入的髒數據；修復——基於代碼生成和開發工作流上下文（如GitHub PR、Jira問題）生成修復方案；驗證——在隔離沙箱中使用真實數據的零拷貝克隆進行測試，只有經用户批准後才會應用到生產環境。

為什麼通用編碼智能體無法勝任數據與AI運維？數據工程和AI運維與軟件工程有本質區別：上下文不僅包含代碼，還涉及數據；故障可能無聲無息且持久存在；生產數據敏感且受嚴格管控。編碼智能體在檢測階段缺乏遙測上下文，評估階段無法訪問血緣，而最關鍵的驗證步驟幾乎無法實現——因為驗證需要針對真實生產數據在隔離環境中測試代碼修復，外部智能體根本無法安全接觸這些數據。

Genie ZeroOps 作為數據平台的一部分，完美解決了驗證難題。對於機器學習工作負載，它尤為出色：模型即使沒有管道錯誤也可能產生錯誤預測，Genie ZeroOps 能診斷原因，構建候選修正模型，並在不影響實時流量的情況下驗證。它利用與 Databricks ML 棧（特徵存儲、MLflow、模型服務、notebooks）的原生集成，理解模型使用的特徵和評估標準，像資深ML工程師一樣推理。

用户完全掌控整個過程：可以配置哪些資產被監控以及授權的操作範圍；所有操作在 Unity Catalog 治理下進行，僅訪問用户憑據允許的數據；問題按嚴重程度排序呈現在收件箱式UI中，每項附有根因分析和修復建議；未經批准不會應用到生產。沙箱環境是信任的技術基礎：零拷貝確保用真實數據測試但不影響生產，權限和網絡隔離防止越界。

Genie ZeroOps 即將在未來幾周內進入私有預覽，首批支持作業、管道、表格和ML工作負載，應用和 Lakebase 數據庫也在路線圖中。用户可通過 Databricks 客户團隊申請早期訪問。