我用AI診斷PagerDuty事件並自動在Slack發佈修復方案
Pulse 是一款利用 Claude AI 自動診斷 PagerDuty 事件並在 Slack 上發佈診斷結果和修復建議的工具,旨在減少工程師夜間被叫醒的次數。
Pulse 是一款由 Claude AI 驅動的自動化事件響應工具,能夠實時監控平台並在 PagerDuty 事件觸發時立即介入。當凌晨3點發生告警時,Pulse 會代替人工接收通知,自動掃描超過12,000行日誌、對比指標基線並與最近的部署相關聯,通常在一分鐘內定位根因。診斷結果以完整報告的形式發佈到團隊所在的 Slack 頻道中,附帶具體修復建議(例如回滾到特定版本),並支持一鍵解決或升級給人類工程師。該工具特別適合處理高置信度的常見問題,從而讓團隊在大多數夜晚無需被叫醒。Pulse 提供單一定價方案,每月125美元,無按事件計費或席位限制,目前處於早期接入階段。Pulse 的工作流程分為三步:首先,PagerDuty 觸發告警,Pulse 立即接管;其次,Claude AI 分析日誌、指標和部署數據,快速找出根本原因,而非僅僅報告症狀;最後,診斷結果連同建議的修復方案被推送到 Slack,工程師只需點擊一下即可解決,如果 Pulse 不確定,則會將所有上下文附加後升級給人類。這種自動化處理不僅減少了工程師的疲勞,還加快了平均修復時間(MTTR)。Pulse 的核心優勢在於其深度集成能力:它接入 PagerDuty 的告警流,同時讀取 AWS CloudWatch、Datadog 等監控工具的日誌和指標,並與 GitHub 或 GitLab 的部署事件相關聯。通過這種方式,Pulse 能夠精確判斷是哪個部署引入了迴歸。例如,在一次模擬事件中,Pulse 在38秒內掃描了12,400行日誌,發現部署 #4821 在支付驗證器中引入了一個空檢查迴歸,錯誤在部署後90秒開始出現,並與新代碼路徑完全相關。建議的修復是回滾到 #4820,置信度標記為高。此外,Pulse 還提供持續監控儀表盤,顯示平台健康狀態和上次檢查時間。在定價方面,Pulse 採用簡單的每月125美元固定費率,不按事件或座位收費,旨在比一小時的停機成本更便宜。目前,Pulse 處於早期接入階段,團隊可以留下郵箱申請試用。對於任何依賴 PagerDuty 和 Slack 進行事件管理的工程團隊,Pulse 提供了一個可行的方案來減少夜間被叫醒的次數,讓工程師專注於更重要的工作。