2026-06-23 07:28 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-23 08:04 UTC+8

AI不會取代值班判斷力

作者構建了一個Claude Code技能用於事件響應，它能在三分鐘內完成通常需要30-90分鐘的信息收集工作，但最終決策仍由人類做出。該工具基於嚴格規則：沒有至少一個獨立數據源確認，就不提出假設。在三個真實事件回放中，它正確識別了所有根因，包括區分內部故障和外部依賴問題。

來源Hacker News AI作者: mooreds

最近有多人問我，人工智能是否會取代事件響應工作，我是否真的嘗試過，效果如何。這篇文章基於我實際構建並用於真實事件的工具，而非空談。

簡短回答：它沒有取代判斷決策，而是取代了做出判斷前通常需要30到90分鐘的基礎工作——這些重複性的信息收集工作（讀取告警、拉取日誌、檢查部署、查找變更記錄、構建時間線）在不同事件中幾乎相同，非常適合自動化。

我為此構建了一個Claude Code技能，名為/incident-investigate。將其指向事件頻道後，它能：讀取討論線程並提取關鍵實體（服務、錯誤類別、集羣、執行ID）；查詢可觀測性後端以匹配錯誤模式；檢查部署歷史中的時間關聯；搜索相關變更記錄；最後返回帶有引用的結構化假設。構建這個技能只用了大約兩小時（分兩次），運行僅需三分鐘，而手動完成通常需要30到90分鐘。

真正關鍵的設計規則是：沒有至少一個獨立數據源確認，就不提出假設。如果日誌不明確且部署歷史不匹配，工具不會猜測，而是給出“證據不足”並建議下一步檢查內容。這條規則源於我觀察到的失敗模式：一個早期版本曾將未經驗證的假設發佈到實時頻道，導致事件指揮官浪費時間去追蹤虛假線索。偶爾聰明但偶爾自信地錯誤的工具比沒有工具更糟糕，因為你無法分辨當前是哪種情況。而一個會説“我不知道，原因如下”的工具，人們會持續使用。

為了驗證效果，我對照三個已知根因的真實事件進行了回放：

超時級聯：根因是超時閾值加流量變化。工具成功識別（中等置信度）。
不良部署：根因是最近PR中的錯誤路由。工具成功識別（高置信度）。
上游中斷：根因是外部DNS故障。工具正確指出“不是我們”。

三戰全勝。沒有虛假聲明，沒有將外部問題錯誤歸咎於內部部署。第三個案例尤其重要：部署總是發生，因此總有看似合理的錯誤答案。工具正確地説“這不是我們，原因如下，去檢查上游提供商”，這節省了時間，而不是製造額外工作。

其中一次事件還存在長達十小時的檢測延遲。如果在這十小時內任何時刻運行此工具，根因分析只需三分鐘而非十小時。這不僅是生產力數字，更是本可避免的十小時客户影響。

那麼，它會取代事件指揮官嗎？不會。事件指揮官仍需決定溝通內容、升級時機、回滾還是等待、召集哪些人。所有這些都不是信息收集，而是判斷決策，我完全沒有自動化的興趣。變化在於判斷決策的時間點：從手動重建證據後的第45分鐘提前到證據在手的第3分鐘。

這一經驗可推廣到其他任務：如果一個人在前30到90分鐘的工作是“按相同順序查詢相同3-4個系統以獲取相同信號”，那這更像是一個函數簽名而非工作描述。自動化該函數，讓人專注於真正的決策部分。

如果你在構建類似工具：在編寫技能代碼前，花足夠多的時間確定哪些數據源可以實際查詢——這往往是死衚衕所在。在編碼前寫下“為什麼這樣設計而不是其他”的一段話。在根據真實歷史（已知答案）進行回放之前，不要將工具用於實時環境。這些並非AI專屬建議，只是在截止日期壓力下容易跳過、而AI工具使其足夠便宜來實現的事情。

歡迎在GitHub、Hachyderm或swamp-club上與我交流關於grounding gates、Claude Code技能或事件響應工具的想法。