AI News HubLIVE
站内改写5 分钟阅读

AgentOps:使用 Amazon Bedrock AgentCore 大规模运营 AI 智能体

构建 AI 智能体解决方案时,面临智能体决策不可预测、成本失控及调试非确定性故障等运营挑战。AgentOps 是部署、管理和持续改进生产环境中 AI 智能体的运营规程。本文介绍了如何使用 Amazon Bedrock AgentCore 实现 AgentOps,涵盖四大支柱:治理与安全、构建与运营、评估、可观测性,并提供了参考架构和实践指南。

来源AWS Machine Learning Blog作者: Anastasia Tzeveleka

构建 AI 智能体解决方案时,您会面临独特的运营挑战。智能体会做出不可预测的决策,成本会意外飙升,调试非确定性故障似乎不可能。AI 智能体应用程序不仅仅执行预定的工作流程,它们还会推理、适应并做出自主决策,因此需要调整 DevOps 实践。这就是 AgentOps 的用武之地,它是部署、管理和持续改进生产环境中 AI 智能体的运营规程。

本博客系列的第一部分介绍了如何运营生成式 AI 工作负载。在本文中,我们将展示如何加速 AI 智能体工作负载的生产路径,检查智能体和工具的质量,并通过实施 AgentOps(使用 Amazon Bedrock AgentCore)推动组织采用 AI 智能体。我们通过四大支柱讨论来自实际实施的最佳实践:治理与安全、构建与运营、评估以及可观测性。我们还展示了 AWS 服务、人员和流程如何整合到一个参考架构中,您可以针对自己的组织进行调整。

请注意,本文重点介绍运营而非智能体设计。实现示例使用 Amazon Bedrock AgentCore 和相关的 AWS 服务,但所讨论的原则广泛适用。参考架构是一个起点:您的组织需求将决定如何调整它。

AgentOps 四大支柱

本文涵盖了每个 AgentOps 支柱的最佳实践和实际经验:

  • 治理与安全:使用多账户策略、确定性控制、推理控制和人工介入,确保智能体在授权范围内运行,并且每个操作都可追踪。
  • 构建与运营:将每个智能体、工具和内存配置视为带有自己 CI/CD 管道的版本化、可部署的工件。
  • 评估:在四个层面进行评估:工具、对话轮次、会话结果和系统,涵盖开发和生产环境。
  • 可观测性与监控:在四个遥测层进行检测,以便追踪每个智能体决策,监控质量下降,并跟踪每次交互的成本。

Amazon Bedrock AgentCore 提供可独立或联合使用的组件来实现这些支柱。它是 AWS 的 AI 智能体平台,用于安全地大规模构建、部署和运营有效的智能体。AgentCore 可与任何开源框架和任何大语言模型(LLM)配合使用,您可以从本地开发过渡到生产,而无需管理基础设施。

AWS 上的 AgentOps 生命周期

与其他软件解决方案一样,智能体遵循从构思到生产的开发生命周期,并且这一过程永远不会真正结束。智能体在每个阶段都需要持续的运营关注和改进。下面,我们展示了 AI 智能体如何影响 DevOps 管道的每个阶段:规划、开发、构建、测试、部署与发布、维护和监控。

| DevOps 阶段 | AgentOps 考虑因素 | |------------|-----------------| | 规划 | 评估 AI 适配性、风险、伦理。获得法律/合规批准,建立性能指标,准备数据。定义人工监督点、工具权限、智能体信任模型、跨智能体认证、初始智能体设计 | | 开发 | 实验和模型选择、评估、检索增强生成(RAG)/提示、分块策略、护栏。编排、记忆、状态、工具注册/发现、模型上下文协议(MCP)工具、智能体到智能体(A2A)、智能体身份、智能体评估、认证模式 | | 构建 | 单元/集成/安全/智能体测试,部署到预生产。工作流测试,工具链验证。基于角色的访问控制(RBAC)验证 | | 测试与发布 | 运行质量、性能、端到端、安全测试。使用 AI 考虑因素更新发布说明。执行路径评估端到端目标、循环限制、人工介入(HITL)测试、未授权智能体操作。 | | 部署 | 将解决方案部署到生产。部署 MCP 服务器、工具。并发、最小权限、智能体端点网络。配置回滚策略、金丝雀部署或流量管理 | | 维护和监控 | 跟踪质量、护栏、延迟、吞吐量、负责任 AI、错误、跟踪使用和成本。用户反馈。跟踪/跨度监控、漂移、告警、操作审计追踪、异常检测、智能体端到端调用的护栏 |

这些支柱适用于生命周期的任何阶段。从负责任 AI 的角度来看,您需要在整个过程中进行系统的风险管理。“AI 智能体安全范围矩阵:保护自主 AI 系统的框架”可以帮助识别和管理风险。

解决方案概述

以下参考架构显示了支柱、生命周期、人员、流程和 AWS 服务如何连接。让我们逐步了解。

规划与设置

产品负责人在集中式目录中注册用例。法律和合规团队评估风险并提供指导。 一旦用例获得批准,产品负责人与领域专家和技术团队合作,确定范围、成功指标和用于评估的测试提示。 平台工程师使用基础设施即代码(IaC)部署环境,并与安全团队商定访问控制,并添加标签以进行治理和成本跟踪。

开发

开发人员和数据科学家创建包含种子代码的智能体、应用程序和工具仓库,并开始构建。他们可以使用共享 AgentCore Gateway 背后的已批准工具和 AWS Registry 背后的智能体。新的工具或 MCP 服务器请求需要经过产品负责人、平台团队和法律部门的批准。 数据工程师为开发和测试创建数据集和评估集。 开发人员运行手动和自动评估,包括工具选择准确性、多步推理验证、对话连贯性和记忆持久性。领域专家审查结果并提供反馈。 实验结果在开发期间本地跟踪,然后同步到共享账户,以便集中跟踪和跨团队比较。 开发人员合并到主分支,触发部署管道。

构建与部署管道

CI/CD 管道创建发布分支,将资源部署到预生产环境,包括通过 ECR 将智能体部署到 AgentCore Runtime,并触发评估管道。对于 RAG 实现,摄取管道部署到数据治理账户。 在预生产环境中,运行集成、性能、UAT、回归和生成式 AI 评估测试,包括认证流程、用户上下文传播和工具访问的授权验证。 QA 工程师和领域专家根据既定指标进行验证,并批准提升到生产环境。

生产部署与运营

解决方案部署到生产环境。生产遥测、用户反馈和性能指标反馈到规划阶段,以实现持续改进。 智能体注册到智能体发现 API,使其可被重用并支持智能体间协作。 最终用户与应用程序交互并提供反馈。AgentCore 可观测性仪表板跟踪决策轨迹、工具调用模式、延迟、错误、内存使用和每次交互的成本。

支柱 1:治理与安全

在智能体系统中,单个用户请求可以跨层级链传播或触发协作群体,其中多个智能体代表用户行动。用户与智能体之间的每次交互都需要严格控制。当智能体 A 调用智能体 B 时,可能存在哪个智能体有权执行哪些操作的歧义。如果权限有限的用户触发智能体,该智能体必须继承这些限制。这种歧义在更深的调用链中只会加剧。您需要对谁可以访问智能体、智能体可以访问哪些数据和工具及 API、谁可以授权这些权限以及出现问题时的处理进行严格治理。

下图显示了智能体处理请求时每个步骤需要做出的安全决策。用户的输入流经环境,进入智能体,智能体使用工具和内存生成输出。应用程序验证用户身份、他们是否被允许调用智能体以及智能体是否可以访问请求的上下文、内存和工具(带有特定参数)。它还验证输入是否安全,以及智能体是否被授权返回特定输出。

为了实现分层安全方法,帮助智能体在明确定义的边界内运行,同时保持可审计性,您应考虑以下维度。

多账户架构

AgentOps 是 GenAIOps 的扩展,就像 MLOps 是 DevOps 的扩展一样。如果您遵循了第 1 部分:GenAIOps,同样的设计原则也适用于 AgentOps。您应该采用多账户策略来实现组织隔离,并使用服务控制策略(SCP)为跨账户设置安全护栏。

以下参考图显示了多账户 AWS 架构:

  • 一个共享服务账户,包含 Amazon Elastic Container Registry(ECR)容器镜像、管道工件、AWS Secrets Manager 以及集中式监控和认证服务。
  • 数据账户,将生产者账户与数据治理账户分开,支持隔离和符合合规要求的安全知识库访问。
  • 每个业务线或应用程序团队的专用开发(dev)、预生产(pre-prod)和生产(prod)应用程序账户,并添加标签以进行治理和成本跟踪。
  • 账户和资源使用基础设施即代码(IaC)进行部署和管理。

受控模型访问

使用 Amazon Bedrock 时,您可以通过 SCP 和 IAM 基于身份的策略控制应用程序可以访问哪些模型。您的智能体可以直接使用这些模型,或通过生成式 AI 网关(如 LiteLLM)使用。通过网关,您可以集中访问控制并简化跨多个模型提供商的治理实施,同时提供统一 API 接口,用于按用户或智能体进行速率限制、令牌预算、成本跟踪和预算执行、基于安全策略的模型路由以及集中式合规审计追踪。AWS 已发布如何部署生成式 AI 网关的指南。我们最初将网关放在共享服务中以简化操作,但发现更难将成本归因到单个智能体,因此将其移到了应用程序账户。

身份与访问控制

您可以使用 AWS Identity and Access Management(IAM)进行细粒度访问控制。此外,使用 AgentCore Identity 可以管理跨智能体的身份验证和授权,具有细粒度访问控制和跨智能体身份验证协议,可在请求传播通过系统时保持安全边界。有关更多信息,请参阅 Amazon Bedrock AgentCore Identity: Securing agentic AI at scale。AWS CloudTrail 可用于全面的审计日志记录和取证分析。

数据治理

数据流经多个接触点:用户输入(文本、附件)、智能体指令、输出、访问的数据源和内存操作,每个接触点都存在潜在的安全风险。配置 Amazon Bedrock Guardrails 以根据安全策略评估用户提示和模型响应,并防止意外披露 PII 等威胁。有关实施护栏并将其与生成式 AI 网关集成的详细设置说明,请参阅 Safeguard generative AI applications with Amazon Bedrock Guardrails。

除上述内容外,使用版本控制评估数据集(包含几百个示例),并系统跟踪 RAG 知识库中文档和生成嵌入的变化,以支持评估和审计要求。