AI News HubLIVE
站内改写4 分钟阅读

扩展AI驱动的客户服务,同时不失去客户信任

AI正在降低客户服务成本,但也可能加速组织风险。斯坦福大学的研究显示,通用AI聊天机器人在法律查询中的幻觉率高达58%-82%。当AI无法解决问题时,品牌净推荐值可能骤降70点。本文探讨了企业如何在部署生成式AI时保持组织准备度,包括信任门槛、确定性AI基础以及升级设计等关键洞察。

来源Emerj AI Research作者: Marilie Fouche

AI正在降低客户服务成本,但同时也可能加速组织风险。真正的高管问题不在于是否部署AI,而在于企业是否建立了足够的准备度,以承受在客户面前失败的时刻。斯坦福大学RegLab的研究表明,通用AI聊天机器人在法律查询中的幻觉率在58%到82%之间,即使是专门构建的法律AI工具在至少六分之一的基准案例中也会产生幻觉。斯坦福HAI 2026年AI指数报告显示,26个领先模型的幻觉率从22%到94%不等,2025年记录的AI事件达到362起,高于前一年的233起。

消费者金融保护局(CFPB)警告说,当客户服务聊天机器人失败时,它们不仅会破坏客户信任,还可能造成广泛伤害,当设计不佳的聊天机器人技术导致消费者选择错误产品、误解费用或失去访问纠纷处理渠道时,金融机构将面临积极的法律责任。联邦贸易委员会(FTC)和其他三个联邦机构于2023年12月联合承诺,将积极执行现有法律,针对对消费者产生有害结果的AI工具。

独立客户运营标准机构COPC Inc.对六个国家的1000多名消费者进行的全球调查发现,当AI完全解决客户问题而不需要进一步步骤时,满意度超过90%,但当AI未能解决问题时,品牌的净推荐值可能骤降70点。同一研究还发现,从AI到人工代理的交接是所有研究市场中一致的失败点——问题不在于AI模型本身,而在于背后的工作流设计。

Adobe客户体验高级总监Robert Rose在Emerj的AI in Business播客中与Matthew DeMello探讨了AI在客户服务中的成熟曲线,并概述了企业在安全地将这些能力扩展到客户之前必须做好的准备。本文从Adobe的Robert Rose的见解中提取了三个关键洞察,探讨企业如何在客户服务中部署生成式AI,而不会超越其组织准备度:

信任门槛作为部署地图:客户对AI的接受度与交互风险成反比,部署顺序必须反映这一现实。人们多年来一直在与AI系统交互,通常没有意识到这一点,在低风险情况下,这几乎不会产生摩擦。但当后果上升——账单纠纷、财务决策、医疗问题——信任收紧,容忍度变窄。这创建了一个自然的部署地图。一些交互已准备好自动化,其他需要监督,有些必须保持人工主导,直到赢得信任。排序不是由技术能力决定的,而是由客户愿意让AI做什么决定的。Rose强调,这条曲线在移动,但不是按照企业的时间表。客户决定信任何时扩大,超前于该曲线的部署会引发挫败感和流失。

嵌入在这个信任问题中的是一个战略决策,大多数企业现在都在悄悄做出——是否告知客户他们在与AI交谈。Rose将其视为品牌和运营问题,而不是伦理问题:“公司实际上在考虑不告诉客户它是一个机器人,只是让他们与这个东西交互,直到我们感觉到它不工作,然后我们将你转给一个人。我们不会告诉你——但这真的取决于公司。”对高管的影响是直接的。披露决定不再是一个默认设置——它是一个有双向后果的选择。披露AI设定了期望,并在系统失败时保护品牌。不披露则提高了每次失败的代价,因为客户感到被误导,而不仅仅是服务不足。高管需要对此有一个深思熟虑的立场,而不是从供应商实施中继承的立场。

根据Rose的框架,部署细分如下:

  • 低风险交易交互:AI现在可以自主操作
  • 中等风险交互:AI在人工监督下是当前标准
  • 高风险受监管交互:人工主导,AI辅助,直到信任建立

确定性AI基础作为生成式个性化的前提:Rose区分了大多数企业AI路线图忽略的一点:预测性AI和生成式AI不可互换,它们是顺序的。预测性系统遵循规则和模式,生成式系统产生响应。如果没有可靠的确定性层在下面,这些响应就没有基础。这种治理转变是重大的。在预测性AI时代,公司对机器人进行编程——如果这个问题进来,你就这样回答。生成式AI完全移除了这个约束。系统根据它有权访问的数据决定说什么。这就是能力扩展的地方,也是风险进入的地方。

他直接解释了失败模式:“它们会编造东西。实际上,它们不是真的编造——它们只是从某个地方找到了信息,然后误解了信息,并推荐了它,但上下文不对。”生成式AI已经在带来价值的地方——即使在人工监督下——是响应个性化。Adobe高管描述了一种当前可用且可在正确监督模型下立即部署的能力:“它可以根据个人资料、最近的交互——这个客户通常生气吗?还是现在生气?如果是,我会加入一些安抚的词语。生成式AI今天就能做到所有这些。”这种能力——实时情感感知响应生成——是生成式AI在客户服务中的近期价值案例。但Rose明确表示,它需要成人监督。他建议组织如何在不承担责任的情况下捕捉这一价值:“这些公司最好的做法可能是在内部进行实验,让人眼审视它并说,‘嘿,这很好’,然后利用你所得到的,并在交付给客户之前进行调节。”

Rose为高管暗示的排序清单:

  • 预测性AI正在产生组织能够辩护的输出
  • 客户数据结构化和稳定,足以让生成式模型准确提取
  • 内部生成式输出在接触客户之前经过审查
  • 法律和风险团队参与部署过程,而不是接收一个完成的系统

当法律团队提出反对时,Rose将其视为确定性基础尚不足以支持大规模生成式个性化的信号。这种抵抗是诊断性的,而不是阻碍性的。

升级设计作为服务AI成熟度的衡量标准:Rose重新解读了客户服务AI中最常被误读的信号之一。当客户重复“代表,代表”时,失败不在于模型,而在于工作流。系统要么未能及早检测到挫败感,要么以迫使客户重新开始的方式转交了客户。大多数组织通过改进模型来应对。Rose认为模型很少是问题,真正的考验是接下来发生什么。

使早期升级成为可能的是情感检测——Rose认为这一能力正在积极改进且未被充分利用。AI系统越来越能够在客户明确要求人工之前感知到客户的挫败感。及早采取行动的信号是将一个恢复的交互与一个恶化的交互区分开来的关键。大多数企业尚未建立工作流触发器来利用它。

每个客户体验领导者必须能够回答的升级设计问题:

  • 系统是否足够早地检测到挫败感,以防止在客户要求之前升级?
  • 客户的上下文——历史、情感、先前输入——有多完整地传递给代理?
  • 代理是知情开始,还是客户需要重复自己?
  • 人工代理是否接受了接收传输上下文的培训,还是重新开始对话?

最后一点是大多数实施默默失败的地方。技术可以传递上下文。代理的行为往往不使用它。这是一个培训和变更管理问题,不是技术问题——而且完全在企业控制范围内。

COPC Inc.发现,当AI未能解决问题时,净推荐值可能下降多达70点——并确定机器人到人工的转移是所有研究市场中一致的失败点。模型不是变量,交接才是。Rose的经验法则:不要根据模型工作时的表现来衡量AI成熟度,而是根据系统在失败时恢复的干净程度。