Genie ZeroOps 發佈:讓數據和AI運營進入自動駕駛模式
Databricks 推出 Genie ZeroOps,一個內置於平台的後台智能體,能夠自主監控、調查並修復數據管道、作業、表格和ML模型等問題。它利用全面的可觀測性、數據血緣和沙箱環境進行安全驗證,旨在將數據團隊從繁重的運維工作中解放出來。
數據團隊長期以來面臨一個棘手問題:大部分時間用於維護而非創新。隨着AI加速管道和模型的構建,運維負擔日益加重。雖然編碼智能體有助於構建,但它們無法自動化運維,因為它們不屬於數據平台,無法訪問指標、日誌和血緣信息,更不能安全操作生產數據。
Databricks 最新推出的 Genie ZeroOps 正是為解決這一痛點而設計。它是一個內置於 Databricks 平台的後台智能體,能夠自主監控、調查並修復數據與AI資產,包括管道、作業、表格和機器學習模型。Genie ZeroOps 運行在平台內部,因此可以安全、便捷地訪問完整的可觀測性數據(指標、事件、日誌、運行歷史),通過 Unity Catalog 獲取數據血緣,並利用零拷貝克隆技術創建隔離的沙箱環境來驗證修復方案,確保不觸及生產數據。
當故障發生時,Genie ZeroOps 遵循一套完整的流程:檢測——持續監控,甚至能捕捉到數據質量指標中出現的靜默故障;評估——利用血緣圖譜追溯根因,可能是代碼錯誤、上游表結構變更或其他管道引入的髒數據;修復——基於代碼生成和開發工作流上下文(如GitHub PR、Jira問題)生成修復方案;驗證——在隔離沙箱中使用真實數據的零拷貝克隆進行測試,只有經用户批准後才會應用到生產環境。
為什麼通用編碼智能體無法勝任數據與AI運維?數據工程和AI運維與軟件工程有本質區別:上下文不僅包含代碼,還涉及數據;故障可能無聲無息且持久存在;生產數據敏感且受嚴格管控。編碼智能體在檢測階段缺乏遙測上下文,評估階段無法訪問血緣,而最關鍵的驗證步驟幾乎無法實現——因為驗證需要針對真實生產數據在隔離環境中測試代碼修復,外部智能體根本無法安全接觸這些數據。
Genie ZeroOps 作為數據平台的一部分,完美解決了驗證難題。對於機器學習工作負載,它尤為出色:模型即使沒有管道錯誤也可能產生錯誤預測,Genie ZeroOps 能診斷原因,構建候選修正模型,並在不影響實時流量的情況下驗證。它利用與 Databricks ML 棧(特徵存儲、MLflow、模型服務、notebooks)的原生集成,理解模型使用的特徵和評估標準,像資深ML工程師一樣推理。
用户完全掌控整個過程:可以配置哪些資產被監控以及授權的操作範圍;所有操作在 Unity Catalog 治理下進行,僅訪問用户憑據允許的數據;問題按嚴重程度排序呈現在收件箱式UI中,每項附有根因分析和修復建議;未經批准不會應用到生產。沙箱環境是信任的技術基礎:零拷貝確保用真實數據測試但不影響生產,權限和網絡隔離防止越界。
Genie ZeroOps 即將在未來幾周內進入私有預覽,首批支持作業、管道、表格和ML工作負載,應用和 Lakebase 數據庫也在路線圖中。用户可通過 Databricks 客户團隊申請早期訪問。