AI在SRE中的應用:Google如何利用智能代理改進運維
Google SRE團隊正在全面採用AI和智能代理技術,以應對日益複雜的系統環境。本文概述了SRE AI的機遇領域,包括可靠性設計、異常檢測、事件管理、事故調查和風險管理,並介紹了其設計原則和基礎設施。
Google的站點可靠性工程(SRE)團隊已有20多年曆史,負責確保Search、Gmail、Maps、YouTube和Google Cloud等服務的高可靠性。然而,隨着AI的出現,系統複雜性出現了多次階躍變化。微服務架構導致系統分佈更廣,硬件多樣性增加;企業雲產品功能繁多;全球業務和監管要求使拓撲結構更復雜;AI代碼生成使代碼量劇增,引入更多可靠性問題。
儘管AI帶來了挑戰,它也提供了理解並改進軟件開發生命週期的新方法。Google SRE正在全面採用AI和智能代理技術,將其作為力量倍增器,同時保持控制。他們稱之為“SRE AI”。
SRE AI的機遇覆蓋了整個軟件開發生命週期。最明顯的應用是事故調查與緩解(根本原因分析),但遠不止於此。以下是幾個正在推進的領域:
- 可靠性設計:通過智能代理在系統設計、發佈和部署階段自動檢測並修復問題,減少人工投入。
- 運行手冊(Playbooks):AI代理持續監控並改進事故期間使用的文檔,甚至從事故中生成新的運行手冊。
- 異常檢測與告警:傳統方法基於靜態閾值,但對於多樣化的客户用例效果不佳。AI通過代理收集信號,利用模型(如TimesFM)進行異常檢測,並結合歷史數據和客户反饋。檢測到異常後,代理自動分組、豐富上下文並處理,顯著減少需要人工審查的告警數量。
- 事件管理:在現有IMAG流程之上添加智能編排層,代理監控通信渠道、總結信息、生成交班文檔、自動起草事後報告並管理內外溝通。
- 事故調查:代理利用可觀測性數據(日誌、監控、追蹤)以及系統拓撲和依賴數據,建立領域知識,形成假設並提出緩解步驟。
- 洞察與風險管理:AI Insights系統持續審查已知事故並提取信息,供代理驅動更好的調查和緩解。風險洞察系統為事故標記風險類別,輔助決策。
在設計上,Google SRE制定了幾項原則:不替換已成功自動化的流程;所有AI系統必須符合現有政策;代理需滿足安全、隱私要求;代理具有強身份和角色權限;代理需提供高可靠性SLO並具備備份方案;代理必須能解釋行動理由;業務連續性計劃需包含AI故障應對;AI系統需持續訪問生產數據並接受質量評估。此外,SRE AI系統應至少實現以下目標之一:減輕工程師重複勞動、幫助提高決策質量、更好地預防/檢測/緩解問題、啓用自治反饋循環、降低運營成本。
SRE AI建立在Google成熟的基礎設施上:Gemini基礎模型及其微調版本、Gemini Enterprise Agent Platform、Agent Development Kit (ADK)、MCP服務器、標準內部可觀測性基礎設施、BigQuery中的AI/ML能力及向量數據庫。這些組件被組合成自治系統,Google為此開發了自主水平追蹤方法。
如需深入瞭解技術架構和治理模型,可閲讀完整白皮書《AI in SRE Practice: Moving Beyond Automation at Google》。