2026-06-02 00:12 UTC+8站內改寫5 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AgentOps：使用 Amazon Bedrock AgentCore 大規模運營 AI 智能體

構建 AI 智能體解決方案時，面臨智能體決策不可預測、成本失控及調試非確定性故障等運營挑戰。AgentOps 是部署、管理和持續改進生產環境中 AI 智能體的運營規程。本文介紹瞭如何使用 Amazon Bedrock AgentCore 實現 AgentOps，涵蓋四大支柱：治理與安全、構建與運營、評估、可觀測性，並提供了參考架構和實踐指南。

來源AWS Machine Learning Blog作者: Anastasia Tzeveleka

構建 AI 智能體解決方案時，您會面臨獨特的運營挑戰。智能體會做出不可預測的決策，成本會意外飆升，調試非確定性故障似乎不可能。AI 智能體應用程序不僅僅執行預定的工作流程，它們還會推理、適應並做出自主決策，因此需要調整 DevOps 實踐。這就是 AgentOps 的用武之地，它是部署、管理和持續改進生產環境中 AI 智能體的運營規程。

本博客系列的第一部分介紹瞭如何運營生成式 AI 工作負載。在本文中，我們將展示如何加速 AI 智能體工作負載的生產路徑，檢查智能體和工具的質量，並通過實施 AgentOps（使用 Amazon Bedrock AgentCore）推動組織採用 AI 智能體。我們通過四大支柱討論來自實際實施的最佳實踐：治理與安全、構建與運營、評估以及可觀測性。我們還展示了 AWS 服務、人員和流程如何整合到一個參考架構中，您可以針對自己的組織進行調整。

請注意，本文重點介紹運營而非智能體設計。實現示例使用 Amazon Bedrock AgentCore 和相關的 AWS 服務，但所討論的原則廣泛適用。參考架構是一個起點：您的組織需求將決定如何調整它。

AgentOps 四大支柱

本文涵蓋了每個 AgentOps 支柱的最佳實踐和實際經驗：

治理與安全：使用多賬户策略、確定性控制、推理控制和人工介入，確保智能體在授權範圍內運行，並且每個操作都可追蹤。
構建與運營：將每個智能體、工具和內存配置視為帶有自己 CI/CD 管道的版本化、可部署的工件。
評估：在四個層面進行評估：工具、對話輪次、會話結果和系統，涵蓋開發和生產環境。
可觀測性與監控：在四個遙測層進行檢測，以便追蹤每個智能體決策，監控質量下降，並跟蹤每次交互的成本。

Amazon Bedrock AgentCore 提供可獨立或聯合使用的組件來實現這些支柱。它是 AWS 的 AI 智能體平台，用於安全地大規模構建、部署和運營有效的智能體。AgentCore 可與任何開源框架和任何大語言模型（LLM）配合使用，您可以從本地開發過渡到生產，而無需管理基礎設施。

AWS 上的 AgentOps 生命週期

與其他軟件解決方案一樣，智能體遵循從構思到生產的開發生命週期，並且這一過程永遠不會真正結束。智能體在每個階段都需要持續的運營關注和改進。下面，我們展示了 AI 智能體如何影響 DevOps 管道的每個階段：規劃、開發、構建、測試、部署與發佈、維護和監控。

| DevOps 階段 | AgentOps 考慮因素 | |------------|-----------------| | 規劃 | 評估 AI 適配性、風險、倫理。獲得法律/合規批准，建立性能指標，準備數據。定義人工監督點、工具權限、智能體信任模型、跨智能體認證、初始智能體設計 | | 開發 | 實驗和模型選擇、評估、檢索增強生成（RAG）/提示、分塊策略、護欄。編排、記憶、狀態、工具註冊/發現、模型上下文協議（MCP）工具、智能體到智能體（A2A）、智能體身份、智能體評估、認證模式 | | 構建 | 單元/集成/安全/智能體測試，部署到預生產。工作流測試，工具鏈驗證。基於角色的訪問控制（RBAC）驗證 | | 測試與發佈 | 運行質量、性能、端到端、安全測試。使用 AI 考慮因素更新發布説明。執行路徑評估端到端目標、循環限制、人工介入（HITL）測試、未授權智能體操作。 | | 部署 | 將解決方案部署到生產。部署 MCP 服務器、工具。併發、最小權限、智能體端點網絡。配置回滾策略、金絲雀部署或流量管理 | | 維護和監控 | 跟蹤質量、護欄、延遲、吞吐量、負責任 AI、錯誤、跟蹤使用和成本。用户反饋。跟蹤/跨度監控、漂移、告警、操作審計追蹤、異常檢測、智能體端到端調用的護欄 |

這些支柱適用於生命週期的任何階段。從負責任 AI 的角度來看，您需要在整個過程中進行系統的風險管理。“AI 智能體安全範圍矩陣：保護自主 AI 系統的框架”可以幫助識別和管理風險。

解決方案概述

以下參考架構顯示了支柱、生命週期、人員、流程和 AWS 服務如何連接。讓我們逐步瞭解。

規劃與設置

產品負責人在集中式目錄中註冊用例。法律和合規團隊評估風險並提供指導。一旦用例獲得批准，產品負責人與領域專家和技術團隊合作，確定範圍、成功指標和用於評估的測試提示。平台工程師使用基礎設施即代碼（IaC）部署環境，並與安全團隊商定訪問控制，並添加標籤以進行治理和成本跟蹤。

開發

開發人員和數據科學家創建包含種子代碼的智能體、應用程序和工具倉庫，並開始構建。他們可以使用共享 AgentCore Gateway 背後的已批准工具和 AWS Registry 背後的智能體。新的工具或 MCP 服務器請求需要經過產品負責人、平台團隊和法律部門的批准。數據工程師為開發和測試創建數據集和評估集。開發人員運行手動和自動評估，包括工具選擇準確性、多步推理驗證、對話連貫性和記憶持久性。領域專家審查結果並提供反饋。實驗結果在開發期間本地跟蹤，然後同步到共享賬户，以便集中跟蹤和跨團隊比較。開發人員合併到主分支，觸發部署管道。

構建與部署管道

CI/CD 管道創建發佈分支，將資源部署到預生產環境，包括通過 ECR 將智能體部署到 AgentCore Runtime，並觸發評估管道。對於 RAG 實現，攝取管道部署到數據治理賬户。在預生產環境中，運行集成、性能、UAT、迴歸和生成式 AI 評估測試，包括認證流程、用户上下文傳播和工具訪問的授權驗證。 QA 工程師和領域專家根據既定指標進行驗證，並批准提升到生產環境。

生產部署與運營

解決方案部署到生產環境。生產遙測、用户反饋和性能指標反饋到規劃階段，以實現持續改進。智能體註冊到智能體發現 API，使其可被重用並支持智能體間協作。最終用户與應用程序交互並提供反饋。AgentCore 可觀測性儀表板跟蹤決策軌跡、工具調用模式、延遲、錯誤、內存使用和每次交互的成本。

支柱 1：治理與安全

在智能體系統中，單個用户請求可以跨層級鏈傳播或觸發協作羣體，其中多個智能體代表用户行動。用户與智能體之間的每次交互都需要嚴格控制。當智能體 A 調用智能體 B 時，可能存在哪個智能體有權執行哪些操作的歧義。如果權限有限的用户觸發智能體，該智能體必須繼承這些限制。這種歧義在更深的調用鏈中只會加劇。您需要對誰可以訪問智能體、智能體可以訪問哪些數據和工具及 API、誰可以授權這些權限以及出現問題時的處理進行嚴格治理。

下圖顯示了智能體處理請求時每個步驟需要做出的安全決策。用户的輸入流經環境，進入智能體，智能體使用工具和內存生成輸出。應用程序驗證用户身份、他們是否被允許調用智能體以及智能體是否可以訪問請求的上下文、內存和工具（帶有特定參數）。它還驗證輸入是否安全，以及智能體是否被授權返回特定輸出。

為了實現分層安全方法，幫助智能體在明確定義的邊界內運行，同時保持可審計性，您應考慮以下維度。

多賬户架構

AgentOps 是 GenAIOps 的擴展，就像 MLOps 是 DevOps 的擴展一樣。如果您遵循了第 1 部分：GenAIOps，同樣的設計原則也適用於 AgentOps。您應該採用多賬户策略來實現組織隔離，並使用服務控制策略（SCP）為跨賬户設置安全護欄。

以下參考圖顯示了多賬户 AWS 架構：

一個共享服務賬户，包含 Amazon Elastic Container Registry（ECR）容器鏡像、管道工件、AWS Secrets Manager 以及集中式監控和認證服務。
數據賬户，將生產者賬户與數據治理賬户分開，支持隔離和符合合規要求的安全知識庫訪問。
每個業務線或應用程序團隊的專用開發（dev）、預生產（pre-prod）和生產（prod）應用程序賬户，並添加標籤以進行治理和成本跟蹤。
賬户和資源使用基礎設施即代碼（IaC）進行部署和管理。

受控模型訪問

使用 Amazon Bedrock 時，您可以通過 SCP 和 IAM 基於身份的策略控制應用程序可以訪問哪些模型。您的智能體可以直接使用這些模型，或通過生成式 AI 網關（如 LiteLLM）使用。通過網關，您可以集中訪問控制並簡化跨多個模型提供商的治理實施，同時提供統一 API 接口，用於按用户或智能體進行速率限制、令牌預算、成本跟蹤和預算執行、基於安全策略的模型路由以及集中式合規審計追蹤。AWS 已發佈如何部署生成式 AI 網關的指南。我們最初將網關放在共享服務中以簡化操作，但發現更難將成本歸因到單個智能體，因此將其移到了應用程序賬户。

身份與訪問控制

您可以使用 AWS Identity and Access Management（IAM）進行細粒度訪問控制。此外，使用 AgentCore Identity 可以管理跨智能體的身份驗證和授權，具有細粒度訪問控制和跨智能體身份驗證協議，可在請求傳播通過系統時保持安全邊界。有關更多信息，請參閲 Amazon Bedrock AgentCore Identity: Securing agentic AI at scale。AWS CloudTrail 可用於全面的審計日誌記錄和取證分析。

數據治理

數據流經多個接觸點：用户輸入（文本、附件）、智能體指令、輸出、訪問的數據源和內存操作，每個接觸點都存在潛在的安全風險。配置 Amazon Bedrock Guardrails 以根據安全策略評估用户提示和模型響應，並防止意外披露 PII 等威脅。有關實施護欄並將其與生成式 AI 網關集成的詳細設置説明，請參閲 Safeguard generative AI applications with Amazon Bedrock Guardrails。

除上述內容外，使用版本控制評估數據集（包含幾百個示例），並系統跟蹤 RAG 知識庫中文檔和生成嵌入的變化，以支持評估和審計要求。