2026-06-02 00:12 UTC+8站内改写5 分钟阅读更新: 2026-06-30 21:03 UTC+8

AgentOps：使用 Amazon Bedrock AgentCore 大规模运营 AI 智能体

构建 AI 智能体解决方案时，面临智能体决策不可预测、成本失控及调试非确定性故障等运营挑战。AgentOps 是部署、管理和持续改进生产环境中 AI 智能体的运营规程。本文介绍了如何使用 Amazon Bedrock AgentCore 实现 AgentOps，涵盖四大支柱：治理与安全、构建与运营、评估、可观测性，并提供了参考架构和实践指南。

来源AWS Machine Learning Blog作者: Anastasia Tzeveleka

构建 AI 智能体解决方案时，您会面临独特的运营挑战。智能体会做出不可预测的决策，成本会意外飙升，调试非确定性故障似乎不可能。AI 智能体应用程序不仅仅执行预定的工作流程，它们还会推理、适应并做出自主决策，因此需要调整 DevOps 实践。这就是 AgentOps 的用武之地，它是部署、管理和持续改进生产环境中 AI 智能体的运营规程。

本博客系列的第一部分介绍了如何运营生成式 AI 工作负载。在本文中，我们将展示如何加速 AI 智能体工作负载的生产路径，检查智能体和工具的质量，并通过实施 AgentOps（使用 Amazon Bedrock AgentCore）推动组织采用 AI 智能体。我们通过四大支柱讨论来自实际实施的最佳实践：治理与安全、构建与运营、评估以及可观测性。我们还展示了 AWS 服务、人员和流程如何整合到一个参考架构中，您可以针对自己的组织进行调整。

请注意，本文重点介绍运营而非智能体设计。实现示例使用 Amazon Bedrock AgentCore 和相关的 AWS 服务，但所讨论的原则广泛适用。参考架构是一个起点：您的组织需求将决定如何调整它。

AgentOps 四大支柱

本文涵盖了每个 AgentOps 支柱的最佳实践和实际经验：

治理与安全：使用多账户策略、确定性控制、推理控制和人工介入，确保智能体在授权范围内运行，并且每个操作都可追踪。
构建与运营：将每个智能体、工具和内存配置视为带有自己 CI/CD 管道的版本化、可部署的工件。
评估：在四个层面进行评估：工具、对话轮次、会话结果和系统，涵盖开发和生产环境。
可观测性与监控：在四个遥测层进行检测，以便追踪每个智能体决策，监控质量下降，并跟踪每次交互的成本。

Amazon Bedrock AgentCore 提供可独立或联合使用的组件来实现这些支柱。它是 AWS 的 AI 智能体平台，用于安全地大规模构建、部署和运营有效的智能体。AgentCore 可与任何开源框架和任何大语言模型（LLM）配合使用，您可以从本地开发过渡到生产，而无需管理基础设施。

AWS 上的 AgentOps 生命周期

与其他软件解决方案一样，智能体遵循从构思到生产的开发生命周期，并且这一过程永远不会真正结束。智能体在每个阶段都需要持续的运营关注和改进。下面，我们展示了 AI 智能体如何影响 DevOps 管道的每个阶段：规划、开发、构建、测试、部署与发布、维护和监控。

| DevOps 阶段 | AgentOps 考虑因素 | |------------|-----------------| | 规划 | 评估 AI 适配性、风险、伦理。获得法律/合规批准，建立性能指标，准备数据。定义人工监督点、工具权限、智能体信任模型、跨智能体认证、初始智能体设计 | | 开发 | 实验和模型选择、评估、检索增强生成（RAG）/提示、分块策略、护栏。编排、记忆、状态、工具注册/发现、模型上下文协议（MCP）工具、智能体到智能体（A2A）、智能体身份、智能体评估、认证模式 | | 构建 | 单元/集成/安全/智能体测试，部署到预生产。工作流测试，工具链验证。基于角色的访问控制（RBAC）验证 | | 测试与发布 | 运行质量、性能、端到端、安全测试。使用 AI 考虑因素更新发布说明。执行路径评估端到端目标、循环限制、人工介入（HITL）测试、未授权智能体操作。 | | 部署 | 将解决方案部署到生产。部署 MCP 服务器、工具。并发、最小权限、智能体端点网络。配置回滚策略、金丝雀部署或流量管理 | | 维护和监控 | 跟踪质量、护栏、延迟、吞吐量、负责任 AI、错误、跟踪使用和成本。用户反馈。跟踪/跨度监控、漂移、告警、操作审计追踪、异常检测、智能体端到端调用的护栏 |

这些支柱适用于生命周期的任何阶段。从负责任 AI 的角度来看，您需要在整个过程中进行系统的风险管理。“AI 智能体安全范围矩阵：保护自主 AI 系统的框架”可以帮助识别和管理风险。

解决方案概述

以下参考架构显示了支柱、生命周期、人员、流程和 AWS 服务如何连接。让我们逐步了解。

规划与设置

产品负责人在集中式目录中注册用例。法律和合规团队评估风险并提供指导。一旦用例获得批准，产品负责人与领域专家和技术团队合作，确定范围、成功指标和用于评估的测试提示。平台工程师使用基础设施即代码（IaC）部署环境，并与安全团队商定访问控制，并添加标签以进行治理和成本跟踪。

开发

开发人员和数据科学家创建包含种子代码的智能体、应用程序和工具仓库，并开始构建。他们可以使用共享 AgentCore Gateway 背后的已批准工具和 AWS Registry 背后的智能体。新的工具或 MCP 服务器请求需要经过产品负责人、平台团队和法律部门的批准。数据工程师为开发和测试创建数据集和评估集。开发人员运行手动和自动评估，包括工具选择准确性、多步推理验证、对话连贯性和记忆持久性。领域专家审查结果并提供反馈。实验结果在开发期间本地跟踪，然后同步到共享账户，以便集中跟踪和跨团队比较。开发人员合并到主分支，触发部署管道。

构建与部署管道

CI/CD 管道创建发布分支，将资源部署到预生产环境，包括通过 ECR 将智能体部署到 AgentCore Runtime，并触发评估管道。对于 RAG 实现，摄取管道部署到数据治理账户。在预生产环境中，运行集成、性能、UAT、回归和生成式 AI 评估测试，包括认证流程、用户上下文传播和工具访问的授权验证。 QA 工程师和领域专家根据既定指标进行验证，并批准提升到生产环境。

生产部署与运营

解决方案部署到生产环境。生产遥测、用户反馈和性能指标反馈到规划阶段，以实现持续改进。智能体注册到智能体发现 API，使其可被重用并支持智能体间协作。最终用户与应用程序交互并提供反馈。AgentCore 可观测性仪表板跟踪决策轨迹、工具调用模式、延迟、错误、内存使用和每次交互的成本。

支柱 1：治理与安全

在智能体系统中，单个用户请求可以跨层级链传播或触发协作群体，其中多个智能体代表用户行动。用户与智能体之间的每次交互都需要严格控制。当智能体 A 调用智能体 B 时，可能存在哪个智能体有权执行哪些操作的歧义。如果权限有限的用户触发智能体，该智能体必须继承这些限制。这种歧义在更深的调用链中只会加剧。您需要对谁可以访问智能体、智能体可以访问哪些数据和工具及 API、谁可以授权这些权限以及出现问题时的处理进行严格治理。

下图显示了智能体处理请求时每个步骤需要做出的安全决策。用户的输入流经环境，进入智能体，智能体使用工具和内存生成输出。应用程序验证用户身份、他们是否被允许调用智能体以及智能体是否可以访问请求的上下文、内存和工具（带有特定参数）。它还验证输入是否安全，以及智能体是否被授权返回特定输出。

为了实现分层安全方法，帮助智能体在明确定义的边界内运行，同时保持可审计性，您应考虑以下维度。

多账户架构

AgentOps 是 GenAIOps 的扩展，就像 MLOps 是 DevOps 的扩展一样。如果您遵循了第 1 部分：GenAIOps，同样的设计原则也适用于 AgentOps。您应该采用多账户策略来实现组织隔离，并使用服务控制策略（SCP）为跨账户设置安全护栏。

以下参考图显示了多账户 AWS 架构：

一个共享服务账户，包含 Amazon Elastic Container Registry（ECR）容器镜像、管道工件、AWS Secrets Manager 以及集中式监控和认证服务。
数据账户，将生产者账户与数据治理账户分开，支持隔离和符合合规要求的安全知识库访问。
每个业务线或应用程序团队的专用开发（dev）、预生产（pre-prod）和生产（prod）应用程序账户，并添加标签以进行治理和成本跟踪。
账户和资源使用基础设施即代码（IaC）进行部署和管理。

受控模型访问

使用 Amazon Bedrock 时，您可以通过 SCP 和 IAM 基于身份的策略控制应用程序可以访问哪些模型。您的智能体可以直接使用这些模型，或通过生成式 AI 网关（如 LiteLLM）使用。通过网关，您可以集中访问控制并简化跨多个模型提供商的治理实施，同时提供统一 API 接口，用于按用户或智能体进行速率限制、令牌预算、成本跟踪和预算执行、基于安全策略的模型路由以及集中式合规审计追踪。AWS 已发布如何部署生成式 AI 网关的指南。我们最初将网关放在共享服务中以简化操作，但发现更难将成本归因到单个智能体，因此将其移到了应用程序账户。

身份与访问控制

您可以使用 AWS Identity and Access Management（IAM）进行细粒度访问控制。此外，使用 AgentCore Identity 可以管理跨智能体的身份验证和授权，具有细粒度访问控制和跨智能体身份验证协议，可在请求传播通过系统时保持安全边界。有关更多信息，请参阅 Amazon Bedrock AgentCore Identity: Securing agentic AI at scale。AWS CloudTrail 可用于全面的审计日志记录和取证分析。

数据治理

数据流经多个接触点：用户输入（文本、附件）、智能体指令、输出、访问的数据源和内存操作，每个接触点都存在潜在的安全风险。配置 Amazon Bedrock Guardrails 以根据安全策略评估用户提示和模型响应，并防止意外披露 PII 等威胁。有关实施护栏并将其与生成式 AI 网关集成的详细设置说明，请参阅 Safeguard generative AI applications with Amazon Bedrock Guardrails。

除上述内容外，使用版本控制评估数据集（包含几百个示例），并系统跟踪 RAG 知识库中文档和生成嵌入的变化，以支持评估和审计要求。