深度代理的提示缓存
了解Deep Agents如何利用提示缓存,在无需额外配置的情况下,将各大模型提供商的LLM Token成本降低高达80%。
- 提示缓存通过存储模型状态,可使推理Token成本降低41-80%。
- 不同模型提供商对缓存控制的支持各不相同,增加了跨提供商优化的难度。
Technical tool blog; verify individual post terms before full body display.
了解Deep Agents如何利用提示缓存,在无需额外配置的情况下,将各大模型提供商的LLM Token成本降低高达80%。
LangSmith新增Fleet值班副驾驶用于告警分类、智能体计算机使用、语音跟踪调试和实验状态跟踪。还有Deep Agents评分标准、程序化子智能体、新的LangSmith部署课程,以及芝加哥、柏林、华盛顿特区和拉斯维加斯的即将举行的活动。
在Max Agency播客中,Zack Reneau-Wedeen分享了构建客户导向AI代理的经验,强调简单架构、基于结果的定价和避免“组织架构运输”的重要性。他解释了为什么多代理系统常常是陷阱,以及如何通过并行运行多个模型来优化性能。
Klarna利用LangGraph和LangSmith构建的AI助手,处理了相当于700名全职员工的工作量,将客户问题解决时间缩短80%,自动化了约70%的重复支持任务。
欧盟AI法案合规截止日期为2026年8月2日。本文详细介绍了该法案对高风险AI系统的具体要求,以及LangSmith和LangChain OSS如何通过全链路追踪、自动化评估、人工监督等功能帮助您实现合规。
本文介绍了为AI Agent添加记忆功能的实用方法,包括短期记忆和长期记忆的概念、追踪分析以及如何利用LangSmith工具实现记忆循环,从而让Agent从以往交互中学习并改进行为。
LangSmith 推出无代码代理构建器,让非技术人员也能轻松创建具有记忆、引导式提示和 MCP 工具的 AI 代理。该构建器通过对话式引导、内置记忆和子代理功能,降低了代理开发的门槛,适用于内部生产力场景。
Factory AI 通过 LangSmith 的可观测性和反馈 API 优化产品反馈循环,实现了迭代速度翻倍,并显著缩短了开发周期。
Open SWE 是一款开源、云端托管的编码代理,能够自主处理 GitHub 任务,包括规划、编码、测试和提交拉取请求。它采用多代理架构,包含规划器、程序员和审查器,并支持人类参与循环和异步执行。
Monte Carlo 利用 LangGraph 构建 AI 故障排除代理,并使用 LangSmith 进行调试,帮助数据团队更快地解决问题。该代理能够并行探索多个调查路径,显著缩短根因分析时间。
LangSmith 推出公开基准测试和评估数据集共享功能,帮助开发者比较不同 LLM 架构在相同任务上的表现。首发数据集为 LangChain 文档问答数据集,并发布了 langchain-benchmarks 包以支持实验。文章分析了多种模型和架构的性能,并提供了调试方法。
LangSmith 产品主页重新划分为三大板块:可观测性、评估和提示工程。同时,资源标签功能得到增强,支持按应用或自定义标签灵活分组资源,未来还将引入基于属性的访问控制(ABAC)。
智能体工程是一门结合产品思维、工程和数据科学的新学科,旨在通过迭代构建、测试、发布、观察和优化的循环,将非确定性的LLM系统转变为可靠的工业生产体验。文章介绍了该学科的核心概念、所需技能、实践场景以及为什么现在需要它。
本文介绍了如何使用LangSmith评估和比较微调后的开源LLM。作者通过微调Llama2-7b和13b模型来生成SQL,并在LangSmith上创建数据集、运行测试、用GPT-4自动评估。结果显示,13b模型在使用较少数据时仍接近GPT-3.5水平,证明了开源模型的竞争力。
AI智能体在反映团队积累的知识和判断时效果最佳。本文探讨如何将人类判断融入智能体开发的生命周期,以交易员助手为例,讲解工作流设计、工具设计和上下文工程,并介绍通过自动化评估和监测来优化智能体的改进循环。
Deep Agents SDK通过卸载、摘要和文件系统抽象来管理长时间运行AI任务的上下文,防止上下文腐败。本文介绍了三种压缩技术:卸载大型工具结果、卸载大型工具输入和摘要,并提供了实践指导和评估方法。
本文探讨了构建可靠AI代理的核心在于精心设计的循环架构,而不仅仅是模型本身。作者介绍了四种嵌套循环:代理循环、验证循环、事件驱动循环和爬山循环,并展示了如何使用LangChain原语实现每层循环。文章强调,通过将代理嵌入生态系统并持续改进,可以构建难以复制的竞争优势。
Fleet将Agent工作分为临时任务和重复任务两种模式,分别由通用聊天和专业Agent处理。通用聊天适合低配置的临时需求,而专业Agent通过持久指令、工具、子Agent和记忆等配置来处理重复性工作。本文详细介绍了两种Agent类型的设计理念、适用场景及配置差异。
LangChain与Fireworks合作微调开放模型,从生产追踪中挖掘感知错误信号,以极低成本达到前沿模型性能。
本文探讨了AI智能体的定义,提出智能体是一个使用LLM决定应用控制流的系统。作者赞同Andrew Ng的观点,认为智能体能力是一个频谱,并介绍了“智能体化”的概念及其在开发、运行、评估和监控中的意义。
LangChain构建了一个基于Deep Agents的GTM代理,自动完成潜在客户研究和邮件起草,并整合账户情报,实现了线索转化率提升250%,每位销售代表每月节省40小时。
LangSmith 的新功能 Align Evals 帮助开发者校准评估器,使其更符合人类偏好,从而减少评估分数与人工判断之间的差异。
本文分析了两个看似对立的博客文章——Cognition团队的“不要构建多智能体”和Anthropic团队的“我们如何构建多智能体研究系统”,指出它们实际上有很多共同点,并提供了关于何时以及如何构建多智能体系统的见解。关键要点包括:上下文工程至关重要、以“读”为主的多智能体系统比以“写”为主的更容易、以及生产可靠性和工程挑战。文章还介绍了LangGraph和LangSmith等工具如何帮助解决这些挑战。
了解 Replit 如何利用 LangSmith 的观测能力调试复杂的代理工作流,包括改进的追踪性能、搜索功能和人机协同线程视图。
Interrupt 2025 是 LangChain 举办的首届行业大会,汇聚了来自全球的 800 名参与者。会议重点讨论了代理工程作为新学科、多模型应用、LangGraph 用于构建可靠代理以及 AI 可观测性等主题。同时,LangChain 发布了一系列新产品,包括 LangGraph Platform 正式版、Open Agent Platform、LangGraph Studio v2、LangGraph Pre-Builts、LangSmith 可观测性更新、Open Evals 和 LLM-as-Judge 等。
了解什么是成对评估,为什么在LLM应用开发中可能需要它,并通过LangChain的LangSmith示例了解如何使用它。
本教程介绍如何利用Pinecone Serverless、LangChain和LangServe构建生产级RAG应用,解决原型与生产之间的差距,包括向量存储管理、快速部署和可观测性。
OpenEvals和AgentEvals提供了预构建的评估器,支持LLM-as-judge、结构化数据和代理轨迹评估。这些开源包帮助开发者快速建立评估流程,确保LLM应用可靠性。
本文深入探讨了构建可靠智能体系统的核心挑战——确保LLM在每一步都拥有适当的上下文。作者比较了工作流与智能体、声明式与命令式方法,并介绍了LangGraph框架的设计理念。文章还批评了OpenAI的智能体指南,赞赏了Anthropic的定义,并讨论了框架的“天花板”与“地板”概念。
LangSmith推出自我改进的LLM评判器,通过将人工修正存储为少样本示例,无需提示工程即可使评判与人类偏好保持一致。