使用由Amazon Bedrock支持的AI代理構建自助式AWS健康分析,以發現可操作的健康洞察
本文介紹如何構建Chaplin(客户健康與計劃生命週期智能連接器),這是一個開源解決方案,利用通過模型上下文協議(MCP)暴露的AI代理,提供自助式健康事件分析。Chaplin允許團隊用自然語言提問,並從MCP兼容的AI助手獲得精確、上下文化的答案,無需依賴AWS支持進行常規分析。
在典型的週一早晨,企業運營團隊會收到多個AWS Health通知,涉及Amazon Linux 2生命週期結束、RDS版本棄用以及EC2實例退役等,這些通知遍佈50多個賬户。如果沒有自助式分析,團隊無法快速識別影響生產系統的事件、需要立即行動與長期規劃的事件,以及每個事件類別對業務的影響。運營團隊還花費時間等待技術客户經理(TAM)解釋健康事件,這增加了關鍵運營決策的延遲。結果是團隊將時間花在被動救火上,而非創新上。
本文展示瞭如何構建Chaplin(Customer Health and Planned Lifecycle Intelligence Nexus),這是一個開源解決方案,利用通過模型上下文協議(MCP)暴露的AI代理,提供自助式健康事件分析。藉助Chaplin,團隊可以直接從MCP兼容的AI助手中用自然語言提問,並獲得精確、上下文化的答案,無需依賴AWS支持進行常規分析。詳細的部署説明可在Chaplin AWS Health Agentic Assistant GitHub倉庫中找到。
挑戰:被動的健康事件管理
在AWS上運行生產工作負載的企業管理着持續不斷的健康事件流——服務變更、維護窗口、安全補丁和運營通知——這些事件遍佈數十或數百個賬户。AWS Health通過AWS Health API和Amazon EventBridge提供全面的健康事件數據,但被動管理方法存在差距。團隊依賴TAM進行健康事件解釋和影響分析,這造成了決策瓶頸。具有預定義模式的商業智能儀表板無法適應動態問題,也無法提供運營團隊在當下所需的上下文洞察。
DevOps和雲運營團隊花費大量時間手動分類和優先處理散佈在多個賬户和區域中的數千個健康事件。沒有集中分析位置,就很難評估整體影響、協調跨團隊響應或識別主動機會——例如在問題變得關鍵之前計劃遷移或安排維護。
符合條件的健康事件很快將直接鏈接到AWS Transform模板,使客户能夠直接對事件採取行動。Chaplin可以為您的環境展示這些可操作事件並確定其優先級。
解決方案概述:使用Chaplin的自助式分析
Chaplin通過使用Amazon Bedrock支持的代理AI實現自助式健康事件分析,並通過模型上下文協議(MCP)交付。Chaplin不採用預定義的儀表板模式,而是暴露AI驅動的工具,MCP兼容的客户端可以消費這些工具。團隊直接從其AI助手(如Claude Code或Kiro CLI)與Chaplin交互,並用自然語言提問。例如,團隊成員可以詢問未來60天內即將發生的RDS生命週期事件、按緊急程度優先排序的開放EC2事件摘要、影響生產環境的安全補丁,或者查詢可能影響高優先級應用程序的維護窗口。
您的團隊可以繼續查詢,直到獲得做出明智決策和制定補救計劃所需的所有信息。這種方法使DevOps、安全和運營團隊能夠獨立分析健康事件、計劃遷移和評估運營影響,而不會造成瓶頸。由於Chaplin使用MCP,團隊還可以將其工作流中的其他MCP啓用工具(如JIRA、GitHub或ServiceNow)結合起來,通過代理體驗執行操作。
此外,MCP支持將AWS數據和元數據與業務或應用程序級上下文(如資源標籤、環境分類和所有權信息)直接關聯,從而豐富了健康事件分析與組織相關性。
代理AI如何統一結構化和非結構化數據
Chaplin使用多代理架構,解決了企業數據分析中的一個基本挑戰:有效結合結構化和非結構化數據處理。傳統的檢索增強生成(RAG)系統和生成式AI方法面臨一個關鍵限制:在處理數值操作和聚合時本質上是不確定的。向量相似性搜索是RAG的基礎,它檢索語義相似的內容,但不能保證數學準確性。當被要求計數、求和或聚合數據時,基於RAG的系統可能會產生幻覺(例如,報告190個與生命週期結束相關的健康事件,而實際數量是958)。這種不確定性源於檢索機制(根據語義相似性而非精確匹配對文檔進行排序)和語言模型生成過程(預測可能的標記而非計算精確值)的概率性。
AWS健康事件正是現了這個挑戰。每個事件包含結構化元數據——事件類型、服務名稱、受影響資源、時間戳、嚴重性級別和賬户ID——需要精確過濾和聚合。每個事件還包含非結構化描述,包括自然語言解釋問題、影響評估和推薦行動,需要語義理解和上下文分析。
智能查詢處理
當您向Chaplin提問時,三個專門的組件協同工作。自然語言到結構化查詢代理將純英語問題轉換為針對健康事件元數據的精確結構化數據查詢。它理解健康事件的模式——存在哪些字段,例如事件類型、受影響賬户和開始時間——並構建與您的意圖匹配的過濾器。像“顯示生產賬户中的EC2退役”這樣的問題會變成具有精確字段過濾器的結構化查詢,而不是關鍵字匹配。
上下文影響分析代理通過將非結構化健康事件描述與您的客户元數據(生產與非生產環境、業務單元、應用程序層級和所有權信息)相結合來處理這些描述。該代理執行系統級推理,不僅解釋事件內容,還解釋事件對您的特定基礎設施和組織背景意味着什麼。
基於模式的分類引擎使用基於規則的模式匹配對健康事件進行分類,從而消除了常規分類的AI處理成本,同時保持了高準確性。這一成本優化層使得該解決方案在實踐中具有可擴展性。
成本優化的AI架構
Chaplin通過選擇性AI增強實現了智能成本優化。該系統採用模式優先的處理方法,其中基於規則的分類無需產生AI成本就能處理大多數事件。帶有過濾器的30天、60天和120天預構建彙總視圖幫助團隊快速識別關鍵警報。在當前實現中,Amazon Bedrock與Claude僅處理需要上下文分析的非結構化數據。但該解決方案也是LLM無關的,支持多種模型提供商,如Amazon Bedrock、OpenAI、Anthropic或本地模型如Ollama,根據您的需求和成本約束提供靈活性。智能緩存減少了重複的AI處理,結構化查詢精確性使用AWS Health API模式進行精確數值分析,無需AI推理成本。
架構概述
下圖展示了完整的Chaplin架構。它顯示了健康事件如何從多個AWS賬户通過集中數據管道流入基於Amazon Bedrock的AI代理構建的MCP服務器,最終到達MCP兼容的AI助手,團隊通過自然語言與數據進行交互。每個層在圖表後都有詳細描述。
架構由三個主要層組成,協同工作以提供智能健康事件分析。
- 數據層——收集層(多賬户)
數據層從整個AWS組織收集健康事件並集中進行分析。在每個成員賬户中,AWS Health API作為健康事件的來源。Amazon EventBridge提供事件驅動的觸發器進行實時捕獲,AWS Lambda收集器函數使用配置了最低權限的跨賬户IAM角色檢索事件。
這些事件流向集中管理賬户,其中Amazon Simple Storage Service (Amazon S3) 數據湖存儲收集的健康事件,並按賬户、日期和事件類型進行智能分區。當新事件到達時,S3事件通知觸發一個AWS Lambda函數,該函數處理JSON健康事件並將其加載到Amazon DynamoDB中以便快速查詢。
這種多賬户架構支持兩種部署模型:
選項1:使用AWS Organizations API進行集中式自動化部署。
選項2:針對具有安全限制的組織進行單個賬户部署。
- 中間層——MCP服務器和智能層
中間層是原始健康事件數據轉化為可操作情報並通過MCP服務器暴露的地方。Amazon DynamoDB作為結構化健康事件元數據的主要數據存儲,通過事件類型、嚴重性、日期和賬户的索引優化了快速查詢。這實現了對模式分類和AI分析的實時訪問。
基於模式的事件分類器提供第一層智能。這個基於規則的分類引擎在事件類型上使用正則表達式模式,將事件映射到五個業務類別:遷移需求、安全與合規、維護與更新、成本影響事件和運營通知。由於大多數事件遵循可預測的模式,這種方法通過高效的模式匹配處理大多數事件,而不會產生AI成本。
對於需要更深入分析的事件,基於Amazon Bedrock構建的AI驅動分析引擎接管。該引擎使用Strands Agents框架,這是AWS開發的開源代理框架,以Claude 4.5 Sonnet作為大語言模型。您可以將其切換到首選的LLM。三個專門的代理處理不同方面的分析:SQL查詢代理將自然語言查詢轉換為結構化的DynamoDB查詢以進行精確數值分析,影響分析代理根據客户元數據(如環境、業務單元和所有權)評估非結構化事件描述,而DBQueryBuilder代理為多維聚合生成優化的數據庫查詢。所有這些能力都被暴露為MCP工具,兼容的客户端可以調用。
- 展示層——MCP客户端——AI助手集成
展示層由兼容MCP的AI助手組成,如Claude Code或Kiro CLI。Chaplin不提供自定義前端,而是將其能力作為MCP工具暴露出來,這些客户端可以原生地使用這些工具。用户通過自然語言在其現有開發環境中交互,AI助手協調對Chaplin的MCP服務器的調用,以檢索健康事件數據、運行AI驅動分析並呈現上下文結果——所有這些都在它們已經用於開發任務的同一對話界面中完成。
安全性依賴於AWS Identity and Access Management (AWS IAM) 進行身份驗證和授權。MCP客户端以只讀方式掛載AWS憑證,並通過遵循最小權限原則的IAM角色控制訪問。