2026-06-02 00:12 UTC+8站內改寫5 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

AgentOps：使用 Amazon Bedrock AgentCore 大規模運營 AI 智慧體

構建 AI 智慧體解決方案時，面臨智慧體決策不可預測、成本失控及除錯非確定性故障等運營挑戰。AgentOps 是部署、管理和持續改進生產環境中 AI 智慧體的運營規程。本文介紹瞭如何使用 Amazon Bedrock AgentCore 實現 AgentOps，涵蓋四大支柱：治理與安全、構建與運營、評估、可觀測性，並提供了參考架構和實踐指南。

來源AWS Machine Learning Blog作者: Anastasia Tzeveleka

構建 AI 智慧體解決方案時，您會面臨獨特的運營挑戰。智慧體會做出不可預測的決策，成本會意外飆升，除錯非確定性故障似乎不可能。AI 智慧體應用程式不僅僅執行預定的工作流程，它們還會推理、適應並做出自主決策，因此需要調整 DevOps 實踐。這就是 AgentOps 的用武之地，它是部署、管理和持續改進生產環境中 AI 智慧體的運營規程。

本部落格系列的第一部分介紹瞭如何運營生成式 AI 工作負載。在本文中，我們將展示如何加速 AI 智慧體工作負載的生產路徑，檢查智慧體和工具的質量，並透過實施 AgentOps（使用 Amazon Bedrock AgentCore）推動組織採用 AI 智慧體。我們透過四大支柱討論來自實際實施的最佳實踐：治理與安全、構建與運營、評估以及可觀測性。我們還展示了 AWS 服務、人員和流程如何整合到一個參考架構中，您可以針對自己的組織進行調整。

請注意，本文重點介紹運營而非智慧體設計。實現示例使用 Amazon Bedrock AgentCore 和相關的 AWS 服務，但所討論的原則廣泛適用。參考架構是一個起點：您的組織需求將決定如何調整它。

AgentOps 四大支柱

本文涵蓋了每個 AgentOps 支柱的最佳實踐和實際經驗：

治理與安全：使用多賬戶策略、確定性控制、推理控制和人工介入，確保智慧體在授權範圍內執行，並且每個操作都可追蹤。
構建與運營：將每個智慧體、工具和記憶體配置視為帶有自己 CI/CD 管道的版本化、可部署的工件。
評估：在四個層面進行評估：工具、對話輪次、會話結果和系統，涵蓋開發和生產環境。
可觀測性與監控：在四個遙測層進行檢測，以便追蹤每個智慧體決策，監控質量下降，並跟蹤每次互動的成本。

Amazon Bedrock AgentCore 提供可獨立或聯合使用的元件來實現這些支柱。它是 AWS 的 AI 智慧體平臺，用於安全地大規模構建、部署和運營有效的智慧體。AgentCore 可與任何開源框架和任何大語言模型（LLM）配合使用，您可以從本地開發過渡到生產，而無需管理基礎設施。

AWS 上的 AgentOps 生命週期

與其他軟體解決方案一樣，智慧體遵循從構思到生產的開發生命週期，並且這一過程永遠不會真正結束。智慧體在每個階段都需要持續的運營關注和改進。下面，我們展示了 AI 智慧體如何影響 DevOps 管道的每個階段：規劃、開發、構建、測試、部署與釋出、維護和監控。

| DevOps 階段 | AgentOps 考慮因素 | |------------|-----------------| | 規劃 | 評估 AI 適配性、風險、倫理。獲得法律/合規批准，建立效能指標，準備資料。定義人工監督點、工具許可權、智慧體信任模型、跨智慧體認證、初始智慧體設計 | | 開發 | 實驗和模型選擇、評估、檢索增強生成（RAG）/提示、分塊策略、護欄。編排、記憶、狀態、工具註冊/發現、模型上下文協議（MCP）工具、智慧體到智慧體（A2A）、智慧體身份、智慧體評估、認證模式 | | 構建 | 單元/整合/安全/智慧體測試，部署到預生產。工作流測試，工具鏈驗證。基於角色的訪問控制（RBAC）驗證 | | 測試與釋出 | 執行質量、效能、端到端、安全測試。使用 AI 考慮因素更新發布說明。執行路徑評估端到端目標、迴圈限制、人工介入（HITL）測試、未授權智慧體操作。 | | 部署 | 將解決方案部署到生產。部署 MCP 伺服器、工具。併發、最小許可權、智慧體端點網路。配置回滾策略、金絲雀部署或流量管理 | | 維護和監控 | 跟蹤質量、護欄、延遲、吞吐量、負責任 AI、錯誤、跟蹤使用和成本。使用者反饋。跟蹤/跨度監控、漂移、告警、操作審計追蹤、異常檢測、智慧體端到端呼叫的護欄 |

這些支柱適用於生命週期的任何階段。從負責任 AI 的角度來看，您需要在整個過程中進行系統的風險管理。“AI 智慧體安全範圍矩陣：保護自主 AI 系統的框架”可以幫助識別和管理風險。

解決方案概述

以下參考架構顯示了支柱、生命週期、人員、流程和 AWS 服務如何連線。讓我們逐步瞭解。

規劃與設定

產品負責人在集中式目錄中註冊用例。法律和合規團隊評估風險並提供指導。一旦用例獲得批准，產品負責人與領域專家和技術團隊合作，確定範圍、成功指標和用於評估的測試提示。平臺工程師使用基礎設施即程式碼（IaC）部署環境，並與安全團隊商定訪問控制，並新增標籤以進行治理和成本跟蹤。

開發

開發人員和資料科學家建立包含種子程式碼的智慧體、應用程式和工具倉庫，並開始構建。他們可以使用共享 AgentCore Gateway 背後的已批准工具和 AWS Registry 背後的智慧體。新的工具或 MCP 伺服器請求需要經過產品負責人、平臺團隊和法律部門的批准。資料工程師為開發和測試建立資料集和評估集。開發人員執行手動和自動評估，包括工具選擇準確性、多步推理驗證、對話連貫性和記憶永續性。領域專家審查結果並提供反饋。實驗結果在開發期間本地跟蹤，然後同步到共享賬戶，以便集中跟蹤和跨團隊比較。開發人員合併到主分支，觸發部署管道。

構建與部署管道

CI/CD 管道建立釋出分支，將資源部署到預生產環境，包括透過 ECR 將智慧體部署到 AgentCore Runtime，並觸發評估管道。對於 RAG 實現，攝取管道部署到資料治理賬戶。在預生產環境中，執行整合、效能、UAT、迴歸和生成式 AI 評估測試，包括認證流程、使用者上下文傳播和工具訪問的授權驗證。 QA 工程師和領域專家根據既定指標進行驗證，並批准提升到生產環境。

生產部署與運營

解決方案部署到生產環境。生產遙測、使用者反饋和效能指標反饋到規劃階段，以實現持續改進。智慧體註冊到智慧體發現 API，使其可被重用並支援智慧體間協作。終端使用者與應用程式互動並提供反饋。AgentCore 可觀測性儀表板跟蹤決策軌跡、工具呼叫模式、延遲、錯誤、記憶體使用和每次互動的成本。

支柱 1：治理與安全

在智慧體系統中，單個使用者請求可以跨層級鏈傳播或觸發協作群體，其中多個智慧體代表使用者行動。使用者與智慧體之間的每次互動都需要嚴格控制。當智慧體 A 呼叫智慧體 B 時，可能存在哪個智慧體有權執行哪些操作的歧義。如果許可權有限的使用者觸發智慧體，該智慧體必須繼承這些限制。這種歧義在更深的呼叫鏈中只會加劇。您需要對誰可以訪問智慧體、智慧體可以訪問哪些資料和工具及 API、誰可以授權這些許可權以及出現問題時的處理進行嚴格治理。

下圖顯示了智慧體處理請求時每個步驟需要做出的安全決策。使用者的輸入流經環境，進入智慧體，智慧體使用工具和記憶體生成輸出。應用程式驗證使用者身份、他們是否被允許呼叫智慧體以及智慧體是否可以訪問請求的上下文、記憶體和工具（帶有特定引數）。它還驗證輸入是否安全，以及智慧體是否被授權返回特定輸出。

為了實現分層安全方法，幫助智慧體在明確定義的邊界內執行，同時保持可審計性，您應考慮以下維度。

多賬戶架構

AgentOps 是 GenAIOps 的擴充套件，就像 MLOps 是 DevOps 的擴充套件一樣。如果您遵循了第 1 部分：GenAIOps，同樣的設計原則也適用於 AgentOps。您應該採用多賬戶策略來實現組織隔離，並使用服務控制策略（SCP）為跨賬戶設定安全護欄。

以下參考圖顯示了多賬戶 AWS 架構：

一個共享服務賬戶，包含 Amazon Elastic Container Registry（ECR）容器映象、管道工件、AWS Secrets Manager 以及集中式監控和認證服務。
資料賬戶，將生產者賬戶與資料治理賬戶分開，支援隔離和符合合規要求的安全知識庫訪問。
每個業務線或應用程式團隊的專用開發（dev）、預生產（pre-prod）和生產（prod）應用程式賬戶，並新增標籤以進行治理和成本跟蹤。
賬戶和資源使用基礎設施即程式碼（IaC）進行部署和管理。

受控模型訪問

使用 Amazon Bedrock 時，您可以透過 SCP 和 IAM 基於身份的策略控制應用程式可以訪問哪些模型。您的智慧體可以直接使用這些模型，或透過生成式 AI 閘道器（如 LiteLLM）使用。透過閘道器，您可以集中訪問控制並簡化跨多個模型提供商的治理實施，同時提供統一 API 介面，用於按使用者或智慧體進行速率限制、令牌預算、成本跟蹤和預算執行、基於安全策略的模型路由以及集中式合規審計追蹤。AWS 已釋出如何部署生成式 AI 閘道器的指南。我們最初將閘道器放在共享服務中以簡化操作，但發現更難將成本歸因到單個智慧體，因此將其移到了應用程式賬戶。

身份與訪問控制

您可以使用 AWS Identity and Access Management（IAM）進行細粒度訪問控制。此外，使用 AgentCore Identity 可以管理跨智慧體的身份驗證和授權，具有細粒度訪問控制和跨智慧體身份驗證協議，可在請求傳播透過系統時保持安全邊界。有關更多資訊，請參閱 Amazon Bedrock AgentCore Identity: Securing agentic AI at scale。AWS CloudTrail 可用於全面的審計日誌記錄和取證分析。

資料治理

資料流經多個接觸點：使用者輸入（文本、附件）、智慧體指令、輸出、訪問的資料來源和記憶體操作，每個接觸點都存在潛在的安全風險。配置 Amazon Bedrock Guardrails 以根據安全策略評估使用者提示和模型響應，並防止意外披露 PII 等威脅。有關實施護欄並將其與生成式 AI 閘道器整合的詳細設定說明，請參閱 Safeguard generative AI applications with Amazon Bedrock Guardrails。

除上述內容外，使用版本控制評估資料集（包含幾百個示例），並系統跟蹤 RAG 知識庫中文件和生成嵌入的變化，以支援評估和審計要求。