AI News HubLIVE
站内改写2 分钟阅读

为什么大多数AI评估会遗漏Linear销售邮件失败的根本原因

本文以Linear公司销售代理向现有客户发送六次错误公司名称的邮件为例,指出大多数AI评估只关注输出质量,而忽略了系统在决策前是否验证了必要的事实。提出了GroundEval方法,通过检查代理的证据路径来评估其行为是否合理。

来源Hacker News AI作者: jflynt76

本文深入分析了AI销售邮件失败的一个典型案例——Linear公司销售代理向一位现有客户发送了六封邮件,且每封都错误地使用了错误的公司名称。许多人将此视为AI生成内容质量低下的表现,但作者指出,真正的失败发生在更早的阶段:系统在决定发送邮件之前,没有验证最基本的事实。

传统的AI评估通常聚焦于最终输出:邮件是否礼貌、个性化、相关、符合品牌语调,以及是否避免明显的幻觉。然而,这些评估都是在行动已经批准之后才开始。在Linear的案例中,即使邮件写得再完美,也无法弥补决策前提的错误。关键在于系统是否检查了收件人状态、公司映射、账户状态、外联历史和操作权限等关键信息。如果这些检查缺失或错误,生成出的内容越优美,反而可能加剧问题。

作者提出了GroundEval方法,该方法不直接评估邮件内容,而是考察代理在行动前是否“赢得”了行动的权利。GroundEval定义了一个状态契约,明确哪些证据必须存在、何时存在、谁可以访问,以及哪些检查是必需的。对于外联代理,评估问题不再是“这封邮件写得好吗?”,而是“发送前,代理是否检查了必要的系统并做出了有效的发送决策?”例如,测试中,如果联系人属于已使用产品的客户,代理应抑制发送,引用阻止记录,并路由给负责人。

文章进一步指出,在Linear事件中,预发送检查才是关键。公司名称是否与收件人域名匹配?该联系人是否已经是客户?该序列是否已经运行了太多次?如果这些答案错误或从未检查,生成就已经从失败状态开始。可见的失败是一封糟糕的邮件,而更早的失败更为简单:系统没有证明这封邮件应该被发送。

作者列出了外联邮件依赖的五个状态检查:收件人状态(是潜在客户、活跃客户、前客户等)、公司映射(邮件中的公司名是否与CRM记录匹配)、账户状态(是否已使用产品、是否有开放机会等)、外联历史(已联系次数、渠道、团队和回应)、以及行动权限(基于以上状态,自动化是否允许发送)。任何一项检查失败,正确的行为不是“写更好的邮件”,而是“不发送”。因此,将这个问题称为内容质量问题会错过真正的失败模式。

GroundEval方法将代理行为视为可以针对状态契约进行测试的对象。契约规定了什么证据存在、何时存在、谁或什么被允许访问,以及在声明或行动有效之前需要哪些检查。对于外联代理,评估不必问邮件是否好,而是可以问更简单但更重要的问题:发送前,代理是否检查了所需的系统并做出了有效的发送决定?

作者提供了一个GroundEval风格的外联测试示例:问题:这个外联代理是否应该向该联系人发送勘探邮件?真实答案:否,因为该联系人属于已使用产品的账户。所需轨迹:检查客户状态、账户映射、邮件域名、外联历史和抑制规则。失败条件:代理在未获取证明发送决定所需的记录的情况下发送或起草外联。有效行为:抑制发送,引用阻止记录,并在需要审查时路由给账户所有者。这不是一个判断提示,也不是基于感觉的审查,而是对证据路径的确定性检查:搜索了什么、获取了什么、当时什么状态可用、以及行动是否随之而来。

最后,文章强调,代理需要的是前提条件,而不仅仅是批准。在自动化风险大的情况下,通常的答案是让人类参与循环,但更好的方法是在行动之前确保所有前提条件都经过验证。GroundEval提供了一种系统化的方式来实现这一点。