AgentOps:使用 Amazon Bedrock AgentCore 大規模運營 AI 智能體
構建 AI 智能體解決方案時,面臨智能體決策不可預測、成本失控及調試非確定性故障等運營挑戰。AgentOps 是部署、管理和持續改進生產環境中 AI 智能體的運營規程。本文介紹瞭如何使用 Amazon Bedrock AgentCore 實現 AgentOps,涵蓋四大支柱:治理與安全、構建與運營、評估、可觀測性,並提供了參考架構和實踐指南。
構建 AI 智能體解決方案時,您會面臨獨特的運營挑戰。智能體會做出不可預測的決策,成本會意外飆升,調試非確定性故障似乎不可能。AI 智能體應用程序不僅僅執行預定的工作流程,它們還會推理、適應並做出自主決策,因此需要調整 DevOps 實踐。這就是 AgentOps 的用武之地,它是部署、管理和持續改進生產環境中 AI 智能體的運營規程。
本博客系列的第一部分介紹瞭如何運營生成式 AI 工作負載。在本文中,我們將展示如何加速 AI 智能體工作負載的生產路徑,檢查智能體和工具的質量,並通過實施 AgentOps(使用 Amazon Bedrock AgentCore)推動組織採用 AI 智能體。我們通過四大支柱討論來自實際實施的最佳實踐:治理與安全、構建與運營、評估以及可觀測性。我們還展示了 AWS 服務、人員和流程如何整合到一個參考架構中,您可以針對自己的組織進行調整。
請注意,本文重點介紹運營而非智能體設計。實現示例使用 Amazon Bedrock AgentCore 和相關的 AWS 服務,但所討論的原則廣泛適用。參考架構是一個起點:您的組織需求將決定如何調整它。
AgentOps 四大支柱
本文涵蓋了每個 AgentOps 支柱的最佳實踐和實際經驗:
- 治理與安全:使用多賬户策略、確定性控制、推理控制和人工介入,確保智能體在授權範圍內運行,並且每個操作都可追蹤。
- 構建與運營:將每個智能體、工具和內存配置視為帶有自己 CI/CD 管道的版本化、可部署的工件。
- 評估:在四個層面進行評估:工具、對話輪次、會話結果和系統,涵蓋開發和生產環境。
- 可觀測性與監控:在四個遙測層進行檢測,以便追蹤每個智能體決策,監控質量下降,並跟蹤每次交互的成本。
Amazon Bedrock AgentCore 提供可獨立或聯合使用的組件來實現這些支柱。它是 AWS 的 AI 智能體平台,用於安全地大規模構建、部署和運營有效的智能體。AgentCore 可與任何開源框架和任何大語言模型(LLM)配合使用,您可以從本地開發過渡到生產,而無需管理基礎設施。
AWS 上的 AgentOps 生命週期
與其他軟件解決方案一樣,智能體遵循從構思到生產的開發生命週期,並且這一過程永遠不會真正結束。智能體在每個階段都需要持續的運營關注和改進。下面,我們展示了 AI 智能體如何影響 DevOps 管道的每個階段:規劃、開發、構建、測試、部署與發佈、維護和監控。
| DevOps 階段 | AgentOps 考慮因素 | |------------|-----------------| | 規劃 | 評估 AI 適配性、風險、倫理。獲得法律/合規批准,建立性能指標,準備數據。定義人工監督點、工具權限、智能體信任模型、跨智能體認證、初始智能體設計 | | 開發 | 實驗和模型選擇、評估、檢索增強生成(RAG)/提示、分塊策略、護欄。編排、記憶、狀態、工具註冊/發現、模型上下文協議(MCP)工具、智能體到智能體(A2A)、智能體身份、智能體評估、認證模式 | | 構建 | 單元/集成/安全/智能體測試,部署到預生產。工作流測試,工具鏈驗證。基於角色的訪問控制(RBAC)驗證 | | 測試與發佈 | 運行質量、性能、端到端、安全測試。使用 AI 考慮因素更新發布説明。執行路徑評估端到端目標、循環限制、人工介入(HITL)測試、未授權智能體操作。 | | 部署 | 將解決方案部署到生產。部署 MCP 服務器、工具。併發、最小權限、智能體端點網絡。配置回滾策略、金絲雀部署或流量管理 | | 維護和監控 | 跟蹤質量、護欄、延遲、吞吐量、負責任 AI、錯誤、跟蹤使用和成本。用户反饋。跟蹤/跨度監控、漂移、告警、操作審計追蹤、異常檢測、智能體端到端調用的護欄 |
這些支柱適用於生命週期的任何階段。從負責任 AI 的角度來看,您需要在整個過程中進行系統的風險管理。“AI 智能體安全範圍矩陣:保護自主 AI 系統的框架”可以幫助識別和管理風險。
解決方案概述
以下參考架構顯示了支柱、生命週期、人員、流程和 AWS 服務如何連接。讓我們逐步瞭解。
規劃與設置
產品負責人在集中式目錄中註冊用例。法律和合規團隊評估風險並提供指導。 一旦用例獲得批准,產品負責人與領域專家和技術團隊合作,確定範圍、成功指標和用於評估的測試提示。 平台工程師使用基礎設施即代碼(IaC)部署環境,並與安全團隊商定訪問控制,並添加標籤以進行治理和成本跟蹤。
開發
開發人員和數據科學家創建包含種子代碼的智能體、應用程序和工具倉庫,並開始構建。他們可以使用共享 AgentCore Gateway 背後的已批准工具和 AWS Registry 背後的智能體。新的工具或 MCP 服務器請求需要經過產品負責人、平台團隊和法律部門的批准。 數據工程師為開發和測試創建數據集和評估集。 開發人員運行手動和自動評估,包括工具選擇準確性、多步推理驗證、對話連貫性和記憶持久性。領域專家審查結果並提供反饋。 實驗結果在開發期間本地跟蹤,然後同步到共享賬户,以便集中跟蹤和跨團隊比較。 開發人員合併到主分支,觸發部署管道。
構建與部署管道
CI/CD 管道創建發佈分支,將資源部署到預生產環境,包括通過 ECR 將智能體部署到 AgentCore Runtime,並觸發評估管道。對於 RAG 實現,攝取管道部署到數據治理賬户。 在預生產環境中,運行集成、性能、UAT、迴歸和生成式 AI 評估測試,包括認證流程、用户上下文傳播和工具訪問的授權驗證。 QA 工程師和領域專家根據既定指標進行驗證,並批准提升到生產環境。
生產部署與運營
解決方案部署到生產環境。生產遙測、用户反饋和性能指標反饋到規劃階段,以實現持續改進。 智能體註冊到智能體發現 API,使其可被重用並支持智能體間協作。 最終用户與應用程序交互並提供反饋。AgentCore 可觀測性儀表板跟蹤決策軌跡、工具調用模式、延遲、錯誤、內存使用和每次交互的成本。
支柱 1:治理與安全
在智能體系統中,單個用户請求可以跨層級鏈傳播或觸發協作羣體,其中多個智能體代表用户行動。用户與智能體之間的每次交互都需要嚴格控制。當智能體 A 調用智能體 B 時,可能存在哪個智能體有權執行哪些操作的歧義。如果權限有限的用户觸發智能體,該智能體必須繼承這些限制。這種歧義在更深的調用鏈中只會加劇。您需要對誰可以訪問智能體、智能體可以訪問哪些數據和工具及 API、誰可以授權這些權限以及出現問題時的處理進行嚴格治理。
下圖顯示了智能體處理請求時每個步驟需要做出的安全決策。用户的輸入流經環境,進入智能體,智能體使用工具和內存生成輸出。應用程序驗證用户身份、他們是否被允許調用智能體以及智能體是否可以訪問請求的上下文、內存和工具(帶有特定參數)。它還驗證輸入是否安全,以及智能體是否被授權返回特定輸出。
為了實現分層安全方法,幫助智能體在明確定義的邊界內運行,同時保持可審計性,您應考慮以下維度。
多賬户架構
AgentOps 是 GenAIOps 的擴展,就像 MLOps 是 DevOps 的擴展一樣。如果您遵循了第 1 部分:GenAIOps,同樣的設計原則也適用於 AgentOps。您應該採用多賬户策略來實現組織隔離,並使用服務控制策略(SCP)為跨賬户設置安全護欄。
以下參考圖顯示了多賬户 AWS 架構:
- 一個共享服務賬户,包含 Amazon Elastic Container Registry(ECR)容器鏡像、管道工件、AWS Secrets Manager 以及集中式監控和認證服務。
- 數據賬户,將生產者賬户與數據治理賬户分開,支持隔離和符合合規要求的安全知識庫訪問。
- 每個業務線或應用程序團隊的專用開發(dev)、預生產(pre-prod)和生產(prod)應用程序賬户,並添加標籤以進行治理和成本跟蹤。
- 賬户和資源使用基礎設施即代碼(IaC)進行部署和管理。
受控模型訪問
使用 Amazon Bedrock 時,您可以通過 SCP 和 IAM 基於身份的策略控制應用程序可以訪問哪些模型。您的智能體可以直接使用這些模型,或通過生成式 AI 網關(如 LiteLLM)使用。通過網關,您可以集中訪問控制並簡化跨多個模型提供商的治理實施,同時提供統一 API 接口,用於按用户或智能體進行速率限制、令牌預算、成本跟蹤和預算執行、基於安全策略的模型路由以及集中式合規審計追蹤。AWS 已發佈如何部署生成式 AI 網關的指南。我們最初將網關放在共享服務中以簡化操作,但發現更難將成本歸因到單個智能體,因此將其移到了應用程序賬户。
身份與訪問控制
您可以使用 AWS Identity and Access Management(IAM)進行細粒度訪問控制。此外,使用 AgentCore Identity 可以管理跨智能體的身份驗證和授權,具有細粒度訪問控制和跨智能體身份驗證協議,可在請求傳播通過系統時保持安全邊界。有關更多信息,請參閲 Amazon Bedrock AgentCore Identity: Securing agentic AI at scale。AWS CloudTrail 可用於全面的審計日誌記錄和取證分析。
數據治理
數據流經多個接觸點:用户輸入(文本、附件)、智能體指令、輸出、訪問的數據源和內存操作,每個接觸點都存在潛在的安全風險。配置 Amazon Bedrock Guardrails 以根據安全策略評估用户提示和模型響應,並防止意外披露 PII 等威脅。有關實施護欄並將其與生成式 AI 網關集成的詳細設置説明,請參閲 Safeguard generative AI applications with Amazon Bedrock Guardrails。
除上述內容外,使用版本控制評估數據集(包含幾百個示例),並系統跟蹤 RAG 知識庫中文檔和生成嵌入的變化,以支持評估和審計要求。