Genie ZeroOps 釋出:讓資料和AI運營進入自動駕駛模式
Databricks 推出 Genie ZeroOps,一個內建於平臺的後臺智慧體,能夠自主監控、調查並修復資料管道、作業、表格和ML模型等問題。它利用全面的可觀測性、資料血緣和沙箱環境進行安全驗證,旨在將資料團隊從繁重的運維工作中解放出來。
資料團隊長期以來面臨一個棘手問題:大部分時間用於維護而非創新。隨著AI加速管道和模型的構建,運維負擔日益加重。雖然編碼智慧體有助於構建,但它們無法自動化運維,因為它們不屬於資料平臺,無法訪問指標、日誌和血緣資訊,更不能安全操作生產資料。
Databricks 最新推出的 Genie ZeroOps 正是為解決這一痛點而設計。它是一個內建於 Databricks 平臺的後臺智慧體,能夠自主監控、調查並修復資料與AI資產,包括管道、作業、表格和機器學習模型。Genie ZeroOps 執行在平臺內部,因此可以安全、便捷地訪問完整的可觀測性資料(指標、事件、日誌、執行歷史),透過 Unity Catalog 獲取資料血緣,並利用零複製克隆技術建立隔離的沙箱環境來驗證修復方案,確保不觸及生產資料。
當故障發生時,Genie ZeroOps 遵循一套完整的流程:檢測——持續監控,甚至能捕捉到資料質量指標中出現的靜默故障;評估——利用血緣圖譜追溯根因,可能是程式碼錯誤、上游表結構變更或其他管道引入的髒資料;修復——基於程式碼生成和開發工作流上下文(如GitHub PR、Jira問題)生成修復方案;驗證——在隔離沙箱中使用真實資料的零複製克隆進行測試,只有經使用者批准後才會應用到生產環境。
為什麼通用編碼智慧體無法勝任資料與AI運維?資料工程和AI運維與軟體工程有本質區別:上下文不僅包含程式碼,還涉及資料;故障可能無聲無息且持久存在;生產資料敏感且受嚴格管控。編碼智慧體在檢測階段缺乏遙測上下文,評估階段無法訪問血緣,而最關鍵的驗證步驟幾乎無法實現——因為驗證需要針對真實生產資料在隔離環境中測試程式碼修復,外部智慧體根本無法安全接觸這些資料。
Genie ZeroOps 作為資料平臺的一部分,完美解決了驗證難題。對於機器學習工作負載,它尤為出色:模型即使沒有管道錯誤也可能產生錯誤預測,Genie ZeroOps 能診斷原因,構建候選修正模型,並在不影響即時流量的情況下驗證。它利用與 Databricks ML 棧(特徵儲存、MLflow、模型服務、notebooks)的原生整合,理解模型使用的特徵和評估標準,像資深ML工程師一樣推理。
使用者完全掌控整個過程:可以配置哪些資產被監控以及授權的操作範圍;所有操作在 Unity Catalog 治理下進行,僅訪問使用者憑據允許的資料;問題按嚴重程度排序呈現在收件箱式UI中,每項附有根因分析和修復建議;未經批准不會應用到生產。沙箱環境是信任的技術基礎:零複製確保用真實資料測試但不影響生產,許可權和網路隔離防止越界。
Genie ZeroOps 即將在未來幾周內進入私有預覽,首批支援作業、管道、表格和ML工作負載,應用和 Lakebase 資料庫也在路線圖中。使用者可透過 Databricks 客戶團隊申請早期訪問。