2026-06-16站内改写2 分鐘閱讀更新: 2026-06-16

Genie ZeroOps 釋出：讓資料和AI運營進入自動駕駛模式

Databricks 推出 Genie ZeroOps，一個內建於平臺的後臺智慧體，能夠自主監控、調查並修復資料管道、作業、表格和ML模型等問題。它利用全面的可觀測性、資料血緣和沙箱環境進行安全驗證，旨在將資料團隊從繁重的運維工作中解放出來。

來源Databricks Blog

資料團隊長期以來面臨一個棘手問題：大部分時間用於維護而非創新。隨著AI加速管道和模型的構建，運維負擔日益加重。雖然編碼智慧體有助於構建，但它們無法自動化運維，因為它們不屬於資料平臺，無法訪問指標、日誌和血緣資訊，更不能安全操作生產資料。

Databricks 最新推出的 Genie ZeroOps 正是為解決這一痛點而設計。它是一個內建於 Databricks 平臺的後臺智慧體，能夠自主監控、調查並修復資料與AI資產，包括管道、作業、表格和機器學習模型。Genie ZeroOps 執行在平臺內部，因此可以安全、便捷地訪問完整的可觀測性資料（指標、事件、日誌、執行歷史），透過 Unity Catalog 獲取資料血緣，並利用零複製克隆技術建立隔離的沙箱環境來驗證修復方案，確保不觸及生產資料。

當故障發生時，Genie ZeroOps 遵循一套完整的流程：檢測——持續監控，甚至能捕捉到資料質量指標中出現的靜默故障；評估——利用血緣圖譜追溯根因，可能是程式碼錯誤、上游表結構變更或其他管道引入的髒資料；修復——基於程式碼生成和開發工作流上下文（如GitHub PR、Jira問題）生成修復方案；驗證——在隔離沙箱中使用真實資料的零複製克隆進行測試，只有經使用者批准後才會應用到生產環境。

為什麼通用編碼智慧體無法勝任資料與AI運維？資料工程和AI運維與軟體工程有本質區別：上下文不僅包含程式碼，還涉及資料；故障可能無聲無息且持久存在；生產資料敏感且受嚴格管控。編碼智慧體在檢測階段缺乏遙測上下文，評估階段無法訪問血緣，而最關鍵的驗證步驟幾乎無法實現——因為驗證需要針對真實生產資料在隔離環境中測試程式碼修復，外部智慧體根本無法安全接觸這些資料。

Genie ZeroOps 作為資料平臺的一部分，完美解決了驗證難題。對於機器學習工作負載，它尤為出色：模型即使沒有管道錯誤也可能產生錯誤預測，Genie ZeroOps 能診斷原因，構建候選修正模型，並在不影響即時流量的情況下驗證。它利用與 Databricks ML 棧（特徵儲存、MLflow、模型服務、notebooks）的原生整合，理解模型使用的特徵和評估標準，像資深ML工程師一樣推理。

使用者完全掌控整個過程：可以配置哪些資產被監控以及授權的操作範圍；所有操作在 Unity Catalog 治理下進行，僅訪問使用者憑據允許的資料；問題按嚴重程度排序呈現在收件箱式UI中，每項附有根因分析和修復建議；未經批准不會應用到生產。沙箱環境是信任的技術基礎：零複製確保用真實資料測試但不影響生產，許可權和網路隔離防止越界。

Genie ZeroOps 即將在未來幾周內進入私有預覽，首批支援作業、管道、表格和ML工作負載，應用和 Lakebase 資料庫也在路線圖中。使用者可透過 Databricks 客戶團隊申請早期訪問。