AI News HubLIVE
站内改写5 分钟阅读

使用由Amazon Bedrock支持的AI代理构建自助式AWS健康分析,以发现可操作的健康洞察

本文介绍如何构建Chaplin(客户健康与计划生命周期智能连接器),这是一个开源解决方案,利用通过模型上下文协议(MCP)暴露的AI代理,提供自助式健康事件分析。Chaplin允许团队用自然语言提问,并从MCP兼容的AI助手获得精确、上下文化的答案,无需依赖AWS支持进行常规分析。

来源AWS Machine Learning Blog作者: Aurelio DeSimone

在典型的周一早晨,企业运营团队会收到多个AWS Health通知,涉及Amazon Linux 2生命周期结束、RDS版本弃用以及EC2实例退役等,这些通知遍布50多个账户。如果没有自助式分析,团队无法快速识别影响生产系统的事件、需要立即行动与长期规划的事件,以及每个事件类别对业务的影响。运营团队还花费时间等待技术客户经理(TAM)解释健康事件,这增加了关键运营决策的延迟。结果是团队将时间花在被动救火上,而非创新上。

本文展示了如何构建Chaplin(Customer Health and Planned Lifecycle Intelligence Nexus),这是一个开源解决方案,利用通过模型上下文协议(MCP)暴露的AI代理,提供自助式健康事件分析。借助Chaplin,团队可以直接从MCP兼容的AI助手中用自然语言提问,并获得精确、上下文化的答案,无需依赖AWS支持进行常规分析。详细的部署说明可在Chaplin AWS Health Agentic Assistant GitHub仓库中找到。

挑战:被动的健康事件管理

在AWS上运行生产工作负载的企业管理着持续不断的健康事件流——服务变更、维护窗口、安全补丁和运营通知——这些事件遍布数十或数百个账户。AWS Health通过AWS Health API和Amazon EventBridge提供全面的健康事件数据,但被动管理方法存在差距。团队依赖TAM进行健康事件解释和影响分析,这造成了决策瓶颈。具有预定义模式的商业智能仪表板无法适应动态问题,也无法提供运营团队在当下所需的上下文洞察。

DevOps和云运营团队花费大量时间手动分类和优先处理散布在多个账户和区域中的数千个健康事件。没有集中分析位置,就很难评估整体影响、协调跨团队响应或识别主动机会——例如在问题变得关键之前计划迁移或安排维护。

符合条件的健康事件很快将直接链接到AWS Transform模板,使客户能够直接对事件采取行动。Chaplin可以为您的环境展示这些可操作事件并确定其优先级。

解决方案概述:使用Chaplin的自助式分析

Chaplin通过使用Amazon Bedrock支持的代理AI实现自助式健康事件分析,并通过模型上下文协议(MCP)交付。Chaplin不采用预定义的仪表板模式,而是暴露AI驱动的工具,MCP兼容的客户端可以消费这些工具。团队直接从其AI助手(如Claude Code或Kiro CLI)与Chaplin交互,并用自然语言提问。例如,团队成员可以询问未来60天内即将发生的RDS生命周期事件、按紧急程度优先排序的开放EC2事件摘要、影响生产环境的安全补丁,或者查询可能影响高优先级应用程序的维护窗口。

您的团队可以继续查询,直到获得做出明智决策和制定补救计划所需的所有信息。这种方法使DevOps、安全和运营团队能够独立分析健康事件、计划迁移和评估运营影响,而不会造成瓶颈。由于Chaplin使用MCP,团队还可以将其工作流中的其他MCP启用工具(如JIRA、GitHub或ServiceNow)结合起来,通过代理体验执行操作。

此外,MCP支持将AWS数据和元数据与业务或应用程序级上下文(如资源标签、环境分类和所有权信息)直接关联,从而丰富了健康事件分析与组织相关性。

代理AI如何统一结构化和非结构化数据

Chaplin使用多代理架构,解决了企业数据分析中的一个基本挑战:有效结合结构化和非结构化数据处理。传统的检索增强生成(RAG)系统和生成式AI方法面临一个关键限制:在处理数值操作和聚合时本质上是不确定的。向量相似性搜索是RAG的基础,它检索语义相似的内容,但不能保证数学准确性。当被要求计数、求和或聚合数据时,基于RAG的系统可能会产生幻觉(例如,报告190个与生命周期结束相关的健康事件,而实际数量是958)。这种不确定性源于检索机制(根据语义相似性而非精确匹配对文档进行排序)和语言模型生成过程(预测可能的标记而非计算精确值)的概率性。

AWS健康事件正是现了这个挑战。每个事件包含结构化元数据——事件类型、服务名称、受影响资源、时间戳、严重性级别和账户ID——需要精确过滤和聚合。每个事件还包含非结构化描述,包括自然语言解释问题、影响评估和推荐行动,需要语义理解和上下文分析。

智能查询处理

当您向Chaplin提问时,三个专门的组件协同工作。自然语言到结构化查询代理将纯英语问题转换为针对健康事件元数据的精确结构化数据查询。它理解健康事件的模式——存在哪些字段,例如事件类型、受影响账户和开始时间——并构建与您的意图匹配的过滤器。像“显示生产账户中的EC2退役”这样的问题会变成具有精确字段过滤器的结构化查询,而不是关键字匹配。

上下文影响分析代理通过将非结构化健康事件描述与您的客户元数据(生产与非生产环境、业务单元、应用程序层级和所有权信息)相结合来处理这些描述。该代理执行系统级推理,不仅解释事件内容,还解释事件对您的特定基础设施和组织背景意味着什么。

基于模式的分类引擎使用基于规则的模式匹配对健康事件进行分类,从而消除了常规分类的AI处理成本,同时保持了高准确性。这一成本优化层使得该解决方案在实践中具有可扩展性。

成本优化的AI架构

Chaplin通过选择性AI增强实现了智能成本优化。该系统采用模式优先的处理方法,其中基于规则的分类无需产生AI成本就能处理大多数事件。带有过滤器的30天、60天和120天预构建汇总视图帮助团队快速识别关键警报。在当前实现中,Amazon Bedrock与Claude仅处理需要上下文分析的非结构化数据。但该解决方案也是LLM无关的,支持多种模型提供商,如Amazon Bedrock、OpenAI、Anthropic或本地模型如Ollama,根据您的需求和成本约束提供灵活性。智能缓存减少了重复的AI处理,结构化查询精确性使用AWS Health API模式进行精确数值分析,无需AI推理成本。

架构概述

下图展示了完整的Chaplin架构。它显示了健康事件如何从多个AWS账户通过集中数据管道流入基于Amazon Bedrock的AI代理构建的MCP服务器,最终到达MCP兼容的AI助手,团队通过自然语言与数据进行交互。每个层在图表后都有详细描述。

架构由三个主要层组成,协同工作以提供智能健康事件分析。

  1. 数据层——收集层(多账户)

数据层从整个AWS组织收集健康事件并集中进行分析。在每个成员账户中,AWS Health API作为健康事件的来源。Amazon EventBridge提供事件驱动的触发器进行实时捕获,AWS Lambda收集器函数使用配置了最低权限的跨账户IAM角色检索事件。

这些事件流向集中管理账户,其中Amazon Simple Storage Service (Amazon S3) 数据湖存储收集的健康事件,并按账户、日期和事件类型进行智能分区。当新事件到达时,S3事件通知触发一个AWS Lambda函数,该函数处理JSON健康事件并将其加载到Amazon DynamoDB中以便快速查询。

这种多账户架构支持两种部署模型:

选项1:使用AWS Organizations API进行集中式自动化部署。

选项2:针对具有安全限制的组织进行单个账户部署。

  1. 中间层——MCP服务器和智能层

中间层是原始健康事件数据转化为可操作情报并通过MCP服务器暴露的地方。Amazon DynamoDB作为结构化健康事件元数据的主要数据存储,通过事件类型、严重性、日期和账户的索引优化了快速查询。这实现了对模式分类和AI分析的实时访问。

基于模式的事件分类器提供第一层智能。这个基于规则的分类引擎在事件类型上使用正则表达式模式,将事件映射到五个业务类别:迁移需求、安全与合规、维护与更新、成本影响事件和运营通知。由于大多数事件遵循可预测的模式,这种方法通过高效的模式匹配处理大多数事件,而不会产生AI成本。

对于需要更深入分析的事件,基于Amazon Bedrock构建的AI驱动分析引擎接管。该引擎使用Strands Agents框架,这是AWS开发的开源代理框架,以Claude 4.5 Sonnet作为大语言模型。您可以将其切换到首选的LLM。三个专门的代理处理不同方面的分析:SQL查询代理将自然语言查询转换为结构化的DynamoDB查询以进行精确数值分析,影响分析代理根据客户元数据(如环境、业务单元和所有权)评估非结构化事件描述,而DBQueryBuilder代理为多维聚合生成优化的数据库查询。所有这些能力都被暴露为MCP工具,兼容的客户端可以调用。

  1. 展示层——MCP客户端——AI助手集成

展示层由兼容MCP的AI助手组成,如Claude Code或Kiro CLI。Chaplin不提供自定义前端,而是将其能力作为MCP工具暴露出来,这些客户端可以原生地使用这些工具。用户通过自然语言在其现有开发环境中交互,AI助手协调对Chaplin的MCP服务器的调用,以检索健康事件数据、运行AI驱动分析并呈现上下文结果——所有这些都在它们已经用于开发任务的同一对话界面中完成。

安全性依赖于AWS Identity and Access Management (AWS IAM) 进行身份验证和授权。MCP客户端以只读方式挂载AWS凭证,并通过遵循最小权限原则的IAM角色控制访问。