AgentOps:使用 Amazon Bedrock AgentCore 大規模運營 AI 智慧體
構建 AI 智慧體解決方案時,面臨智慧體決策不可預測、成本失控及除錯非確定性故障等運營挑戰。AgentOps 是部署、管理和持續改進生產環境中 AI 智慧體的運營規程。本文介紹瞭如何使用 Amazon Bedrock AgentCore 實現 AgentOps,涵蓋四大支柱:治理與安全、構建與運營、評估、可觀測性,並提供了參考架構和實踐指南。
構建 AI 智慧體解決方案時,您會面臨獨特的運營挑戰。智慧體會做出不可預測的決策,成本會意外飆升,除錯非確定性故障似乎不可能。AI 智慧體應用程式不僅僅執行預定的工作流程,它們還會推理、適應並做出自主決策,因此需要調整 DevOps 實踐。這就是 AgentOps 的用武之地,它是部署、管理和持續改進生產環境中 AI 智慧體的運營規程。
本部落格系列的第一部分介紹瞭如何運營生成式 AI 工作負載。在本文中,我們將展示如何加速 AI 智慧體工作負載的生產路徑,檢查智慧體和工具的質量,並透過實施 AgentOps(使用 Amazon Bedrock AgentCore)推動組織採用 AI 智慧體。我們透過四大支柱討論來自實際實施的最佳實踐:治理與安全、構建與運營、評估以及可觀測性。我們還展示了 AWS 服務、人員和流程如何整合到一個參考架構中,您可以針對自己的組織進行調整。
請注意,本文重點介紹運營而非智慧體設計。實現示例使用 Amazon Bedrock AgentCore 和相關的 AWS 服務,但所討論的原則廣泛適用。參考架構是一個起點:您的組織需求將決定如何調整它。
AgentOps 四大支柱
本文涵蓋了每個 AgentOps 支柱的最佳實踐和實際經驗:
- 治理與安全:使用多賬戶策略、確定性控制、推理控制和人工介入,確保智慧體在授權範圍內執行,並且每個操作都可追蹤。
- 構建與運營:將每個智慧體、工具和記憶體配置視為帶有自己 CI/CD 管道的版本化、可部署的工件。
- 評估:在四個層面進行評估:工具、對話輪次、會話結果和系統,涵蓋開發和生產環境。
- 可觀測性與監控:在四個遙測層進行檢測,以便追蹤每個智慧體決策,監控質量下降,並跟蹤每次互動的成本。
Amazon Bedrock AgentCore 提供可獨立或聯合使用的元件來實現這些支柱。它是 AWS 的 AI 智慧體平臺,用於安全地大規模構建、部署和運營有效的智慧體。AgentCore 可與任何開源框架和任何大語言模型(LLM)配合使用,您可以從本地開發過渡到生產,而無需管理基礎設施。
AWS 上的 AgentOps 生命週期
與其他軟體解決方案一樣,智慧體遵循從構思到生產的開發生命週期,並且這一過程永遠不會真正結束。智慧體在每個階段都需要持續的運營關注和改進。下面,我們展示了 AI 智慧體如何影響 DevOps 管道的每個階段:規劃、開發、構建、測試、部署與釋出、維護和監控。
| DevOps 階段 | AgentOps 考慮因素 | |------------|-----------------| | 規劃 | 評估 AI 適配性、風險、倫理。獲得法律/合規批准,建立效能指標,準備資料。定義人工監督點、工具許可權、智慧體信任模型、跨智慧體認證、初始智慧體設計 | | 開發 | 實驗和模型選擇、評估、檢索增強生成(RAG)/提示、分塊策略、護欄。編排、記憶、狀態、工具註冊/發現、模型上下文協議(MCP)工具、智慧體到智慧體(A2A)、智慧體身份、智慧體評估、認證模式 | | 構建 | 單元/整合/安全/智慧體測試,部署到預生產。工作流測試,工具鏈驗證。基於角色的訪問控制(RBAC)驗證 | | 測試與釋出 | 執行質量、效能、端到端、安全測試。使用 AI 考慮因素更新發布說明。執行路徑評估端到端目標、迴圈限制、人工介入(HITL)測試、未授權智慧體操作。 | | 部署 | 將解決方案部署到生產。部署 MCP 伺服器、工具。併發、最小許可權、智慧體端點網路。配置回滾策略、金絲雀部署或流量管理 | | 維護和監控 | 跟蹤質量、護欄、延遲、吞吐量、負責任 AI、錯誤、跟蹤使用和成本。使用者反饋。跟蹤/跨度監控、漂移、告警、操作審計追蹤、異常檢測、智慧體端到端呼叫的護欄 |
這些支柱適用於生命週期的任何階段。從負責任 AI 的角度來看,您需要在整個過程中進行系統的風險管理。“AI 智慧體安全範圍矩陣:保護自主 AI 系統的框架”可以幫助識別和管理風險。
解決方案概述
以下參考架構顯示了支柱、生命週期、人員、流程和 AWS 服務如何連線。讓我們逐步瞭解。
規劃與設定
產品負責人在集中式目錄中註冊用例。法律和合規團隊評估風險並提供指導。 一旦用例獲得批准,產品負責人與領域專家和技術團隊合作,確定範圍、成功指標和用於評估的測試提示。 平臺工程師使用基礎設施即程式碼(IaC)部署環境,並與安全團隊商定訪問控制,並新增標籤以進行治理和成本跟蹤。
開發
開發人員和資料科學家建立包含種子程式碼的智慧體、應用程式和工具倉庫,並開始構建。他們可以使用共享 AgentCore Gateway 背後的已批准工具和 AWS Registry 背後的智慧體。新的工具或 MCP 伺服器請求需要經過產品負責人、平臺團隊和法律部門的批准。 資料工程師為開發和測試建立資料集和評估集。 開發人員執行手動和自動評估,包括工具選擇準確性、多步推理驗證、對話連貫性和記憶永續性。領域專家審查結果並提供反饋。 實驗結果在開發期間本地跟蹤,然後同步到共享賬戶,以便集中跟蹤和跨團隊比較。 開發人員合併到主分支,觸發部署管道。
構建與部署管道
CI/CD 管道建立釋出分支,將資源部署到預生產環境,包括透過 ECR 將智慧體部署到 AgentCore Runtime,並觸發評估管道。對於 RAG 實現,攝取管道部署到資料治理賬戶。 在預生產環境中,執行整合、效能、UAT、迴歸和生成式 AI 評估測試,包括認證流程、使用者上下文傳播和工具訪問的授權驗證。 QA 工程師和領域專家根據既定指標進行驗證,並批准提升到生產環境。
生產部署與運營
解決方案部署到生產環境。生產遙測、使用者反饋和效能指標反饋到規劃階段,以實現持續改進。 智慧體註冊到智慧體發現 API,使其可被重用並支援智慧體間協作。 終端使用者與應用程式互動並提供反饋。AgentCore 可觀測性儀表板跟蹤決策軌跡、工具呼叫模式、延遲、錯誤、記憶體使用和每次互動的成本。
支柱 1:治理與安全
在智慧體系統中,單個使用者請求可以跨層級鏈傳播或觸發協作群體,其中多個智慧體代表使用者行動。使用者與智慧體之間的每次互動都需要嚴格控制。當智慧體 A 呼叫智慧體 B 時,可能存在哪個智慧體有權執行哪些操作的歧義。如果許可權有限的使用者觸發智慧體,該智慧體必須繼承這些限制。這種歧義在更深的呼叫鏈中只會加劇。您需要對誰可以訪問智慧體、智慧體可以訪問哪些資料和工具及 API、誰可以授權這些許可權以及出現問題時的處理進行嚴格治理。
下圖顯示了智慧體處理請求時每個步驟需要做出的安全決策。使用者的輸入流經環境,進入智慧體,智慧體使用工具和記憶體生成輸出。應用程式驗證使用者身份、他們是否被允許呼叫智慧體以及智慧體是否可以訪問請求的上下文、記憶體和工具(帶有特定引數)。它還驗證輸入是否安全,以及智慧體是否被授權返回特定輸出。
為了實現分層安全方法,幫助智慧體在明確定義的邊界內執行,同時保持可審計性,您應考慮以下維度。
多賬戶架構
AgentOps 是 GenAIOps 的擴充套件,就像 MLOps 是 DevOps 的擴充套件一樣。如果您遵循了第 1 部分:GenAIOps,同樣的設計原則也適用於 AgentOps。您應該採用多賬戶策略來實現組織隔離,並使用服務控制策略(SCP)為跨賬戶設定安全護欄。
以下參考圖顯示了多賬戶 AWS 架構:
- 一個共享服務賬戶,包含 Amazon Elastic Container Registry(ECR)容器映象、管道工件、AWS Secrets Manager 以及集中式監控和認證服務。
- 資料賬戶,將生產者賬戶與資料治理賬戶分開,支援隔離和符合合規要求的安全知識庫訪問。
- 每個業務線或應用程式團隊的專用開發(dev)、預生產(pre-prod)和生產(prod)應用程式賬戶,並新增標籤以進行治理和成本跟蹤。
- 賬戶和資源使用基礎設施即程式碼(IaC)進行部署和管理。
受控模型訪問
使用 Amazon Bedrock 時,您可以透過 SCP 和 IAM 基於身份的策略控制應用程式可以訪問哪些模型。您的智慧體可以直接使用這些模型,或透過生成式 AI 閘道器(如 LiteLLM)使用。透過閘道器,您可以集中訪問控制並簡化跨多個模型提供商的治理實施,同時提供統一 API 介面,用於按使用者或智慧體進行速率限制、令牌預算、成本跟蹤和預算執行、基於安全策略的模型路由以及集中式合規審計追蹤。AWS 已釋出如何部署生成式 AI 閘道器的指南。我們最初將閘道器放在共享服務中以簡化操作,但發現更難將成本歸因到單個智慧體,因此將其移到了應用程式賬戶。
身份與訪問控制
您可以使用 AWS Identity and Access Management(IAM)進行細粒度訪問控制。此外,使用 AgentCore Identity 可以管理跨智慧體的身份驗證和授權,具有細粒度訪問控制和跨智慧體身份驗證協議,可在請求傳播透過系統時保持安全邊界。有關更多資訊,請參閱 Amazon Bedrock AgentCore Identity: Securing agentic AI at scale。AWS CloudTrail 可用於全面的審計日誌記錄和取證分析。
資料治理
資料流經多個接觸點:使用者輸入(文本、附件)、智慧體指令、輸出、訪問的資料來源和記憶體操作,每個接觸點都存在潛在的安全風險。配置 Amazon Bedrock Guardrails 以根據安全策略評估使用者提示和模型響應,並防止意外披露 PII 等威脅。有關實施護欄並將其與生成式 AI 閘道器整合的詳細設定說明,請參閱 Safeguard generative AI applications with Amazon Bedrock Guardrails。
除上述內容外,使用版本控制評估資料集(包含幾百個示例),並系統跟蹤 RAG 知識庫中文件和生成嵌入的變化,以支援評估和審計要求。