AI不會取代值班判斷力
作者構建了一個Claude Code技能用於事件響應,它能在三分鐘內完成通常需要30-90分鐘的信息收集工作,但最終決策仍由人類做出。該工具基於嚴格規則:沒有至少一個獨立數據源確認,就不提出假設。在三個真實事件回放中,它正確識別了所有根因,包括區分內部故障和外部依賴問題。
最近有多人問我,人工智能是否會取代事件響應工作,我是否真的嘗試過,效果如何。這篇文章基於我實際構建並用於真實事件的工具,而非空談。
簡短回答:它沒有取代判斷決策,而是取代了做出判斷前通常需要30到90分鐘的基礎工作——這些重複性的信息收集工作(讀取告警、拉取日誌、檢查部署、查找變更記錄、構建時間線)在不同事件中幾乎相同,非常適合自動化。
我為此構建了一個Claude Code技能,名為/incident-investigate。將其指向事件頻道後,它能:讀取討論線程並提取關鍵實體(服務、錯誤類別、集羣、執行ID);查詢可觀測性後端以匹配錯誤模式;檢查部署歷史中的時間關聯;搜索相關變更記錄;最後返回帶有引用的結構化假設。構建這個技能只用了大約兩小時(分兩次),運行僅需三分鐘,而手動完成通常需要30到90分鐘。
真正關鍵的設計規則是:沒有至少一個獨立數據源確認,就不提出假設。如果日誌不明確且部署歷史不匹配,工具不會猜測,而是給出“證據不足”並建議下一步檢查內容。這條規則源於我觀察到的失敗模式:一個早期版本曾將未經驗證的假設發佈到實時頻道,導致事件指揮官浪費時間去追蹤虛假線索。偶爾聰明但偶爾自信地錯誤的工具比沒有工具更糟糕,因為你無法分辨當前是哪種情況。而一個會説“我不知道,原因如下”的工具,人們會持續使用。
為了驗證效果,我對照三個已知根因的真實事件進行了回放:
- 超時級聯:根因是超時閾值加流量變化。工具成功識別(中等置信度)。
- 不良部署:根因是最近PR中的錯誤路由。工具成功識別(高置信度)。
- 上游中斷:根因是外部DNS故障。工具正確指出“不是我們”。
三戰全勝。沒有虛假聲明,沒有將外部問題錯誤歸咎於內部部署。第三個案例尤其重要:部署總是發生,因此總有看似合理的錯誤答案。工具正確地説“這不是我們,原因如下,去檢查上游提供商”,這節省了時間,而不是製造額外工作。
其中一次事件還存在長達十小時的檢測延遲。如果在這十小時內任何時刻運行此工具,根因分析只需三分鐘而非十小時。這不僅是生產力數字,更是本可避免的十小時客户影響。
那麼,它會取代事件指揮官嗎?不會。事件指揮官仍需決定溝通內容、升級時機、回滾還是等待、召集哪些人。所有這些都不是信息收集,而是判斷決策,我完全沒有自動化的興趣。變化在於判斷決策的時間點:從手動重建證據後的第45分鐘提前到證據在手的第3分鐘。
這一經驗可推廣到其他任務:如果一個人在前30到90分鐘的工作是“按相同順序查詢相同3-4個系統以獲取相同信號”,那這更像是一個函數簽名而非工作描述。自動化該函數,讓人專注於真正的決策部分。
如果你在構建類似工具:在編寫技能代碼前,花足夠多的時間確定哪些數據源可以實際查詢——這往往是死衚衕所在。在編碼前寫下“為什麼這樣設計而不是其他”的一段話。在根據真實歷史(已知答案)進行回放之前,不要將工具用於實時環境。這些並非AI專屬建議,只是在截止日期壓力下容易跳過、而AI工具使其足夠便宜來實現的事情。
歡迎在GitHub、Hachyderm或swamp-club上與我交流關於grounding gates、Claude Code技能或事件響應工具的想法。