AI News HubLIVE
站内改写2 分钟阅读

AI不会取代值班判断力

作者构建了一个Claude Code技能用于事件响应,它能在三分钟内完成通常需要30-90分钟的信息收集工作,但最终决策仍由人类做出。该工具基于严格规则:没有至少一个独立数据源确认,就不提出假设。在三个真实事件回放中,它正确识别了所有根因,包括区分内部故障和外部依赖问题。

来源Hacker News AI作者: mooreds

最近有多人问我,人工智能是否会取代事件响应工作,我是否真的尝试过,效果如何。这篇文章基于我实际构建并用于真实事件的工具,而非空谈。

简短回答:它没有取代判断决策,而是取代了做出判断前通常需要30到90分钟的基础工作——这些重复性的信息收集工作(读取告警、拉取日志、检查部署、查找变更记录、构建时间线)在不同事件中几乎相同,非常适合自动化。

我为此构建了一个Claude Code技能,名为/incident-investigate。将其指向事件频道后,它能:读取讨论线程并提取关键实体(服务、错误类别、集群、执行ID);查询可观测性后端以匹配错误模式;检查部署历史中的时间关联;搜索相关变更记录;最后返回带有引用的结构化假设。构建这个技能只用了大约两小时(分两次),运行仅需三分钟,而手动完成通常需要30到90分钟。

真正关键的设计规则是:没有至少一个独立数据源确认,就不提出假设。如果日志不明确且部署历史不匹配,工具不会猜测,而是给出“证据不足”并建议下一步检查内容。这条规则源于我观察到的失败模式:一个早期版本曾将未经验证的假设发布到实时频道,导致事件指挥官浪费时间去追踪虚假线索。偶尔聪明但偶尔自信地错误的工具比没有工具更糟糕,因为你无法分辨当前是哪种情况。而一个会说“我不知道,原因如下”的工具,人们会持续使用。

为了验证效果,我对照三个已知根因的真实事件进行了回放:

  1. 超时级联:根因是超时阈值加流量变化。工具成功识别(中等置信度)。
  2. 不良部署:根因是最近PR中的错误路由。工具成功识别(高置信度)。
  3. 上游中断:根因是外部DNS故障。工具正确指出“不是我们”。

三战全胜。没有虚假声明,没有将外部问题错误归咎于内部部署。第三个案例尤其重要:部署总是发生,因此总有看似合理的错误答案。工具正确地说“这不是我们,原因如下,去检查上游提供商”,这节省了时间,而不是制造额外工作。

其中一次事件还存在长达十小时的检测延迟。如果在这十小时内任何时刻运行此工具,根因分析只需三分钟而非十小时。这不仅是生产力数字,更是本可避免的十小时客户影响。

那么,它会取代事件指挥官吗?不会。事件指挥官仍需决定沟通内容、升级时机、回滚还是等待、召集哪些人。所有这些都不是信息收集,而是判断决策,我完全没有自动化的兴趣。变化在于判断决策的时间点:从手动重建证据后的第45分钟提前到证据在手的第3分钟。

这一经验可推广到其他任务:如果一个人在前30到90分钟的工作是“按相同顺序查询相同3-4个系统以获取相同信号”,那这更像是一个函数签名而非工作描述。自动化该函数,让人专注于真正的决策部分。

如果你在构建类似工具:在编写技能代码前,花足够多的时间确定哪些数据源可以实际查询——这往往是死胡同所在。在编码前写下“为什么这样设计而不是其他”的一段话。在根据真实历史(已知答案)进行回放之前,不要将工具用于实时环境。这些并非AI专属建议,只是在截止日期压力下容易跳过、而AI工具使其足够便宜来实现的事情。

欢迎在GitHub、Hachyderm或swamp-club上与我交流关于grounding gates、Claude Code技能或事件响应工具的想法。