2026-05-09站内改写

代理开发生命周期

本文介绍了代理开发生命周期的四个阶段：构建、测试、部署和监控。强调了在部署前进行测试、使用运行时和沙箱进行可靠部署、以及通过追踪和反馈进行监控的重要性。涵盖了从代码优先到无代码的多种工具，并讨论了评估数据集、模拟和信号采集等最佳实践。

文章情报

工程师中级

要点

生命周期包括构建、测试、部署和监控四个阶段。
测试应在部署前开始，使用数据集和实验系统化评估代理。
部署需要耐久执行、人工介入、沙箱和上下文管理。
监控通过追踪、信号和反馈驱动迭代改进。

为什么重要

这条新闻值得关注，因为生命周期包括构建、测试、部署和监控四个阶段。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

代理开发生命周期是团队系统化构建、测试、部署和监控AI代理的流程。该周期包含四个阶段：构建、测试、部署和监控，顺序至关重要。

在构建阶段，团队决定代理系统的类型和抽象级别。工具范围从代码优先框架（如LangChain、LangGraph、CrewAI）到无代码平台（如LangSmith Fleet、Claude Cowork）。代理框架关注抽象，运行时关注执行（如LangGraph支持状态、分支和暂停），而代理工具集（如Deep Agents）提供提示、技能和中间件。无代码工具让领域专家参与，但工程控制仍然必要。

测试阶段在部署前评估代理准备情况。团队从代表性的小数据集开始，包括预期用例、手动测试和已知边缘案例。指标取决于任务：有明确答案的任务可直接衡量正确性，无唯一答案的任务则依赖基于标准的评估（如是否遵循政策）。实验连接数据集和迭代，模拟（如多轮交互）对对话代理至关重要。

部署阶段为代理提供可靠运行环境。简单代理类似传统应用，但复杂代理需要耐久执行（如通过LangSmith Deployment或AWS AgentCore）和人工介入模式。沙箱（如LangSmith Sandboxes、Daytona）提供隔离执行环境，而上下文中心（如提示和技能仓库）允许非工程师更新行为。

监控阶段提供生产可见性。传统指标（延迟、成本）仍重要，但代理可能技术上成功却实际失败。追踪捕获完整轨迹，LLM-as-judge评估器和正则表达式提供信号。反馈（如用户评分）和产品分析帮助团队识别代理卡点。监控数据反馈回构建和测试阶段，形成持续改进循环。

具体而言，构建阶段中，代理框架如LangChain帮助开发者组合模型调用、工具、提示词、检索和结构化输出；运行时如LangGraph支持有状态、持久化和人工介入的代理；而Deep Agents等工具集提供提示词、技能、MCP服务器等。无代码平台让领域专家参与，但工程团队仍需通过钩子和中间件控制扩展逻辑。测试阶段要求团队在部署前建立评估集，包括代表性任务的数据集，并使用实验比较不同配置。对于多轮交互的代理（如语音或客服代理），模拟至关重要。部署阶段强调运行时、沙箱和上下文管理。监控阶段通过追踪捕获完整代理行为，并利用LLM-as-judge或正则表达式从追踪中提取信号，结合用户反馈持续改进代理。