2026-06-23 07:28 UTC+8站内改写2 分钟阅读更新: 2026-06-23 08:04 UTC+8

AI不会取代值班判断力

作者构建了一个Claude Code技能用于事件响应，它能在三分钟内完成通常需要30-90分钟的信息收集工作，但最终决策仍由人类做出。该工具基于严格规则：没有至少一个独立数据源确认，就不提出假设。在三个真实事件回放中，它正确识别了所有根因，包括区分内部故障和外部依赖问题。

来源Hacker News AI作者: mooreds

最近有多人问我，人工智能是否会取代事件响应工作，我是否真的尝试过，效果如何。这篇文章基于我实际构建并用于真实事件的工具，而非空谈。

简短回答：它没有取代判断决策，而是取代了做出判断前通常需要30到90分钟的基础工作——这些重复性的信息收集工作（读取告警、拉取日志、检查部署、查找变更记录、构建时间线）在不同事件中几乎相同，非常适合自动化。

我为此构建了一个Claude Code技能，名为/incident-investigate。将其指向事件频道后，它能：读取讨论线程并提取关键实体（服务、错误类别、集群、执行ID）；查询可观测性后端以匹配错误模式；检查部署历史中的时间关联；搜索相关变更记录；最后返回带有引用的结构化假设。构建这个技能只用了大约两小时（分两次），运行仅需三分钟，而手动完成通常需要30到90分钟。

真正关键的设计规则是：没有至少一个独立数据源确认，就不提出假设。如果日志不明确且部署历史不匹配，工具不会猜测，而是给出“证据不足”并建议下一步检查内容。这条规则源于我观察到的失败模式：一个早期版本曾将未经验证的假设发布到实时频道，导致事件指挥官浪费时间去追踪虚假线索。偶尔聪明但偶尔自信地错误的工具比没有工具更糟糕，因为你无法分辨当前是哪种情况。而一个会说“我不知道，原因如下”的工具，人们会持续使用。

为了验证效果，我对照三个已知根因的真实事件进行了回放：

超时级联：根因是超时阈值加流量变化。工具成功识别（中等置信度）。
不良部署：根因是最近PR中的错误路由。工具成功识别（高置信度）。
上游中断：根因是外部DNS故障。工具正确指出“不是我们”。

三战全胜。没有虚假声明，没有将外部问题错误归咎于内部部署。第三个案例尤其重要：部署总是发生，因此总有看似合理的错误答案。工具正确地说“这不是我们，原因如下，去检查上游提供商”，这节省了时间，而不是制造额外工作。

其中一次事件还存在长达十小时的检测延迟。如果在这十小时内任何时刻运行此工具，根因分析只需三分钟而非十小时。这不仅是生产力数字，更是本可避免的十小时客户影响。

那么，它会取代事件指挥官吗？不会。事件指挥官仍需决定沟通内容、升级时机、回滚还是等待、召集哪些人。所有这些都不是信息收集，而是判断决策，我完全没有自动化的兴趣。变化在于判断决策的时间点：从手动重建证据后的第45分钟提前到证据在手的第3分钟。

这一经验可推广到其他任务：如果一个人在前30到90分钟的工作是“按相同顺序查询相同3-4个系统以获取相同信号”，那这更像是一个函数签名而非工作描述。自动化该函数，让人专注于真正的决策部分。

如果你在构建类似工具：在编写技能代码前，花足够多的时间确定哪些数据源可以实际查询——这往往是死胡同所在。在编码前写下“为什么这样设计而不是其他”的一段话。在根据真实历史（已知答案）进行回放之前，不要将工具用于实时环境。这些并非AI专属建议，只是在截止日期压力下容易跳过、而AI工具使其足够便宜来实现的事情。

欢迎在GitHub、Hachyderm或swamp-club上与我交流关于grounding gates、Claude Code技能或事件响应工具的想法。