在生产环境中修复代理故障:Interrupt 2026 回顾 | LangChain 新闻通讯
LangChain 在 Interrupt 2026 大会上发布了 LangSmith Engine 和 Sandboxes 正式版,并推出了 LangChain Labs 以推进代理的持续学习。大会所有演讲现已可按需观看。
- LangSmith Engine 自动分析生产轨迹、聚类故障并推荐修复方案。
- LangSmith Sandboxes 正式发布,提供安全的代理代码执行环境。
公司追踪
LangChain 最新 AI 新闻、产品、模型、生态和产业动态。
LangChain 在 Interrupt 2026 大会上发布了 LangSmith Engine 和 Sandboxes 正式版,并推出了 LangChain Labs 以推进代理的持续学习。大会所有演讲现已可按需观看。
Lyft 采用 LangGraph 和 LangSmith 构建了一个自助式 AI 代理平台,用于客户支持,将代理开发时间从数月缩短至数周。该平台通过路由多代理架构、LangGraph 的子图功能以及 LangSmith 的追踪与监控工具,赋能非技术领域专家独立开发 AI 代理,并借助 LLM-as-a-Judge 评估系统确保质量。
AI模型在原始智能方面似乎已达到平台期,下一阶段的进步来自于围绕模型构建的“代理马具”。本文介绍了代理马具的概念,包括工具、记忆和人类参与,并比较了Google、LangChain、OpenAI、Anthropic等公司的解决方案。
本文提供了一种在 AWS 上构建高度可扩展、无服务器的多智能体生成式 AI 系统的解决方案,该系统使用 LangGraph 智能体作为编排器,并与 Amazon Bedrock AgentCore Memory 和 Amazon Bedrock AgentCore Observability 集成。文章详细介绍了如何结合 AWS Lambda 和 AWS Step Functions 等无服务器技术来构建自动扩展、实时响应且无需管理基础设施的 LangGraph 智能体,并讨论了 LangGraph 的图执行模型如何实现确定性协调、并行处理和条件路由。此外,文章还涵盖了一个基于此架构的营销活动审核系统的实现,包括先决条件、部署步骤和清理指南。
本研究将飞秒激光泵浦的相干伊辛机(CIM)与大语言模型(LLM)驱动的智能体系统集成,利用LangGraph和LangChain框架实现了量子建模的自动化。LLM能够有效执行QUBO/Ising模型校准、约束权重迭代和文献方案验证。所有任务均基于国产大模型和国产CIM硬件实现,完全依赖自主核心技术。研究还意外发现,智能体辅助量子计算迭代积累的知识能够反向增强智能体自身的问题解决能力,形成新的协同范式。
一个基于LangChain4j的Java AI代理,类似于Claude Code,免费使用,需注册Mistral账户。首次尝试生成了一个功能良好的计算器应用。
LangSmith的Auth Proxy通过将凭据隔离在沙箱之外,在网络层注入认证头,并允许团队定义出口策略和动态凭据流程,从而为AI代理沙箱提供更安全的网络访问控制。
Deep Agents、LangChain 和 LangGraph 的最新流式原语引入了类型化事件、作用域订阅、子代理可见性、多模态输出和弹性前端体验,支持构建生产级代理应用。
Amazon SageMaker AI 现在为实时推理端点提供 OpenAI 兼容的 API 支持。使用 OpenAI SDK、LangChain 或 Strands Agents 的用户只需更改端点 URL 即可调用 SageMaker AI 上的模型,无需自定义客户端、SigV4 包装器或代码重写。该功能支持聊天补全请求和流式响应,并通过 bearer token 进行身份验证。
深度代理现在支持解释器:小型嵌入式运行时,代理可在其中编写代码以协调工具、保持工作状态,并决定哪些内容进入模型上下文。解释器提供了一种介于串行工具调用和完整沙盒之间的中间地带,使代理能够表达多步骤工作、将中间状态保留在模型上下文之外,并以更可预测的方式执行代码和操作。
LangSmith Engine 是一个位于代理追踪之上的智能代理,能够发现重复出现的问题并提出改进建议。本文详细介绍了其技术架构,包括如何大规模筛选追踪、识别问题、生成评估器和数据集示例,并持续更新代理概览以优化后续运行。
2026年,企业级自主AI已从试点转向生产。本文对Salesforce Agentforce、Microsoft Copilot Studio、ServiceNow、LangGraph等十大平台进行排名,提供已验证的定价、实际采用数据及诚实限制,帮助团队做出决策。
深度代理此前采用通用设计以适配各模型家族。今天,我们推出模型特定配置文件,可调整提示、工具和中间件。我们内置了针对OpenAI、Anthropic和Google模型的配置文件,在tau2-bench子集上相比默认配置实现了10-20分的提升。
itsharness是一个用于构建、运行和监控AI代理工作流的完整工具集。它提供可视化画布设计流程,导出运行时无关的规范,编译到不同框架,并支持运行、追踪和调试。当前规范版本0.2.0,包含14种节点类型和5个参考流程。
本期AI新闻涵盖多个热点:GitHub Copilot App模仿Conductor的形态引发讨论;OpenAI推出Codex移动版,支持远程控制编码代理;LangChain发布SmithDB和Engine,将代理追踪数据转化为改进循环;Anthropic限制Claude Code使用引发开发者强烈反弹;Figure展示人形机器人24/7自主分拣直播;以及多项研究进展,包括扩散语言模型、时间序列基础模型和可解释性等。
LangChain 在 Interrupt 2026 上发布了一系列新产品和功能,旨在帮助团队加速智能体开发周期,包括自动调试、托管基础设施、可观测性和治理等。
LangChain Labs 是一项新的应用研究计划,专注于智能体的持续学习,与多家合作伙伴共同推进自我改进型AI系统的开放研究。
Halgorithem 是一种无需依赖AI即可检测AI幻觉的算法,通过将输入文件解析为树结构并与文件块树比较来标记不一致之处。该算法可轻松集成到LangGraph、CrewAI等Python AI工作流中,并在多项基准测试中展现出高准确率。
了解代理牵引系统如何将AI模型转变为自主工作引擎。探索核心组件:文件系统、沙箱和记忆。
LangSmith推出SmithDB,这是专为智能体可观测性设计的分布式数据库,性能提升高达12倍,支持完全可移植性,适用于自托管和多云环境。
LangSmith推出LLM网关私有测试版,这是一层运行时治理,可在请求到达模型前强制执行成本限制和敏感数据编辑,并将策略事件直接集成到LangSmith工作区,无需额外工具。
LangSmith 发布 Context Hub,一个集中存储、版本管理和协作管理 AI 代理行为文件(如 AGENTS.md、技能、策略)的平台。它解决了上下文文件常由非工程人员编写且更新频繁的问题,提供版本控制、标签、评论等功能,支持 CLI 和 UI 操作,并能与 Deep Agents 集成实现持久化记忆。
Deep Agents v0.6 引入了代码解释器、模型适配配置文件、流式传输 v3、增量通道和 ContextHub,使智能体更快速、更经济、更具可扩展性。
LangSmith Sandbox 现已正式发布 (GA),提供基于硬件虚拟化的微虚拟机,实现内核级隔离,确保运行不受信任的AI生成代码的安全性。新特性包括快照与分支、服务URL、CLI工具、认证代理等,适用于编码代理、CI代理和数据管道等场景。
LangChain推出Managed Deep Agents私有测试版,提供API优先的托管运行时,处理持久化执行、沙箱、工具访问和可观测性,让开发者专注于代理行为而非基础设施。
Torrix 是一款自托管的 LLM 可观测性工具,支持跟踪令牌数、成本、延迟、完整提示追踪、推理令牌捕获和 PII 脱敏。兼容 OpenAI、Anthropic、Google Gemini 等众多提供商。通过 Docker 一键部署,无需 Postgres 或 Redis。提供 Python、Node.js、Go、C#、Java SDK 以及 LangChain 回调和 HTTP 代理。
LangGraph 1.2引入了DeltaChannel,通过仅存储每一步的差异并定期写入完整快照,将检查点存储从O(N²)降至接近恒定水平。对于编码智能体,实现了41倍存储缩减,且无需迁移或配置更改。
OncoAgent是一个开源、隐私保护的肿瘤临床决策支持系统。它采用双层大语言模型架构(9B快速模型和27B深度推理模型)、多智能体LangGraph拓扑、纠正性RAG流程(涵盖70余项NCCN和ESMO指南)以及三层反射安全验证器。系统通过复杂性评分路由查询,在AMD Instinct MI300X上微调,实现了56倍的吞吐量加速,并支持本地部署以确保数据主权。
本文介绍了代理开发生命周期的四个阶段:构建、测试、部署和监控。强调了在部署前进行测试、使用运行时和沙箱进行可靠部署、以及通过追踪和反馈进行监控的重要性。涵盖了从代码优先到无代码的多种工具,并讨论了评估数据集、模拟和信号采集等最佳实践。
记忆对人类思维和AI代理的行为至关重要。本文从认知科学角度出发,介绍了AI代理的短时记忆、情景记忆、语义记忆和长时记忆等类型,并探讨了它们的设计权衡。通过LangGraph在Google Colab中的实践演示,展示了如何构建包含多种记忆模式的AI代理。
本文详细介绍了如何利用 LangChain 的 Deep Agents 进行编排和 Parallel 的 Task API 进行结构化网络研究,构建自动化公司尽职调查智能体。该智能体包含五个研究子智能体,并通过 LangSmith 实现合规可观测性,确保每项主张都有源可查。
本教程详细演示了如何利用Groq的免费OpenAI兼容推理端点,结合LangGraph、LangChain以及自定义工具(包括网页搜索、文件操作、Python执行、技能加载、子代理委派和长期记忆),构建一个可运行的多步骤研究代理。通过一个实际任务(小型语言模型简报),展示了代理发现技能、委派子研究、生成结构化输出和保存记忆的完整流程。
本文由LangChain创始人Harrison Chase撰写,阐述了智能体可观测性的核心价值不仅是调试,而是驱动学习循环。他强调,仅靠追踪是不够的,必须结合反馈信号(用户反馈、间接信号、大模型评判、规则等)才能系统地改进模型、框架和上下文。文章详细探讨了学习发生的多个层面(模型、框架、上下文),以及如何通过追踪与反馈结合实现人工或自动化的持续改进。最后,他指出一个完善的可观测性平台应具备存储追踪、存储反馈和生成反馈三大能力。
赫伯罗特数字客户体验团队利用Amazon Bedrock、Elasticsearch和LangChain/LangGraph构建了基于生成式AI的反馈分析解决方案,自动进行情感分类、趋势分析和报告生成,减少人工工作,实现更快的数据驱动产品决策。
Open SWE 是一个基于 Deep Agents 和 LangGraph 构建的开源框架,它捕捉了 Stripe、Ramp 和 Coinbase 等公司在内部编码智能体方面的成功架构模式,提供了可定制的沙箱、工具集、编排和集成组件。
像GLM-5和MiniMax M2.7这样的开放权重模型在核心智能体任务(文件操作、工具使用、指令遵循)上已媲美封闭前沿模型,同时成本更低、延迟更短。LangChain的评估显示其正确率接近顶级闭源模型,使开放模型适用于生产环境。本文详细介绍评估方法、结果及如何在Deep Agents SDK中使用开放模型。
LangChain宣布将于2026年5月13日至14日在旧金山Midway举办第二届Interrupt大会,聚焦企业级Agent的规模化部署。大会将邀请Harrison Chase、Andrew Ng、MongoDB CEO Chirantan Desai及Box CEO Aaron Levie等嘉宾,分享Lyft、LinkedIn等企业的生产实践,并提供产品演示、工作坊和AMA环节。
LangSmith 的回归测试功能帮助 AI 工程师通过比较实验、跟踪性能并深入分析运行间的变化,自信地评估和迭代 LLM 应用。与传统的软件测试不同,AI 测试可能无法获得满分,因此随时间追踪结果并比较单个数据点至关重要。LangSmith 提供了比较视图、显示选项、基线运行中自动高亮变化的数据点、过滤以及展开行详细查看等功能,使快速迭代和探索数据变得简单。
LangSmith 是一个用于 LLM 应用的统一 DevOps 平台,现已在 Azure 市场中作为 Azure Kubernetes 应用提供,支持在 Azure VPC 内部署,完全控制数据,并支持 MACC 信用额度。
Dosu公司采用评估驱动开发(EDD)和LangSmith来构建可靠的LLM产品,监控生产性能,并自信地进行迭代。本文详细介绍了Dosu的起源、早期挑战、如何实施EDD以及利用LangSmith大规模监控和改进产品。
LangSmith 推出了测试运行对比功能,允许用户并排查看多个测试运行的结果,结合人工检查和自动评估,更高效地优化 LLM 应用。
多代理系统模拟真实工程团队,不仅能更快编写代码,还能将调试时间缩短93%并压缩跨团队交付。本文介绍了基于LangGraph的架构及其在Cisco的试点成果。
LLM智能体在生产环境中的行为与传统软件截然不同,需要新的可观测性方法。本文探讨了智能体监控的独特挑战,包括无限输入空间、非确定性行为,以及如何通过标注队列、LLM替代人工评估和专用工具(如LangSmith的Insights Agent、在线评估和仪表板)来扩展评估,并强调了跨职能团队协作的重要性。
本文介绍了如何在自己的计算机上使用小型语言模型(SLM)构建完全本地运行的AI代理,无需互联网连接或API费用。涵盖AI代理和SLM的概念、本地运行的优势、Ollama和LangChain的设置、逐步构建代理以及添加记忆和工具的方法,并讨论了SLM的局限性。
Cerebras生态系统正将超低延迟推理从差异化优势转变为关键基础设施。通过其晶圆级芯片架构,Cerebras在推理速度上比传统GPU系统快15倍,并迅速扩展模型支持、云服务和开发者工具集成,使开发者能够轻松利用这一速度构建从代理、编码助手到语音界面等新一代应用。生态系统的快速扩展——包括支持主流开源模型、通过云市场提供服务、以及集成LangChain、Docker等工具——正在将速度转化为实际生产力,推动AI推理进入宽带时代。