AI News HubLIVE
公开文章 79采集文章 85可信度 84刷新频率 30 分钟
健康状态 健康来源类型 研究原文权限 允许原文最近入库 2026-06-26ID langchain-blog运行状态 已启用

Technical tool blog; verify individual post terms before full body display.

最新公开文章

深度代理的提示缓存

了解Deep Agents如何利用提示缓存,在无需额外配置的情况下,将各大模型提供商的LLM Token成本降低高达80%。

  • 提示缓存通过存储模型状态,可使推理Token成本降低41-80%。
  • 不同模型提供商对缓存控制的支持各不相同,增加了跨提供商优化的难度。
站内正文

2026年6月:LangChain通讯——Fleet值班副驾驶、Deep Agents评分标准等

LangSmith新增Fleet值班副驾驶用于告警分类、智能体计算机使用、语音跟踪调试和实验状态跟踪。还有Deep Agents评分标准、程序化子智能体、新的LangSmith部署课程,以及芝加哥、柏林、华盛顿特区和拉斯维加斯的即将举行的活动。

  • Fleet On-Call Copilot:一个预构建的智能体模板,用于通过代码、轨迹和运行手册进行告警分类和更新草稿。
  • 计算机使用:智能体现在可以使用隔离的虚拟计算机进行代码、文件和经身份验证的API调用。
站内正文

最佳AI代理为何简单:Sierra的Zack Reneau-Wedeen在Max Agency播客上的见解

在Max Agency播客中,Zack Reneau-Wedeen分享了构建客户导向AI代理的经验,强调简单架构、基于结果的定价和避免“组织架构运输”的重要性。他解释了为什么多代理系统常常是陷阱,以及如何通过并行运行多个模型来优化性能。

  • 简单的代理架构比复杂的多代理系统更有效
  • 基于结果的定价模式有助于激励高价值任务
站内正文

Klarna的AI助手如何重新定义大规模客户支持,服务8500万活跃用户

Klarna利用LangGraph和LangSmith构建的AI助手,处理了相当于700名全职员工的工作量,将客户问题解决时间缩短80%,自动化了约70%的重复支持任务。

  • Klarna的AI助手基于LangGraph和LangSmith,处理超过250万次对话,工作效率相当于700名全职员工。
  • AI助手将平均客户问题解决时间减少80%,自动化70%的重复支持任务。
站内正文

LangSmith和LangChain OSS如何帮助您满足欧盟AI法案要求

欧盟AI法案合规截止日期为2026年8月2日。本文详细介绍了该法案对高风险AI系统的具体要求,以及LangSmith和LangChain OSS如何通过全链路追踪、自动化评估、人工监督等功能帮助您实现合规。

  • 欧盟AI法案要求高风险AI系统建立风险管理、自动日志、透明度、人工监督和持续监控等机制。
  • LangSmith提供端到端追踪,捕获代理的每个输入、推理、工具调用和输出,满足可追溯性要求。
站内正文

如何为AI Agent构建记忆系统

本文介绍了为AI Agent添加记忆功能的实用方法,包括短期记忆和长期记忆的概念、追踪分析以及如何利用LangSmith工具实现记忆循环,从而让Agent从以往交互中学习并改进行为。

  • 记忆让Agent能记住用户偏好和修复过的错误,减少重复纠正。
  • 短期记忆用于当前任务,长期记忆持久化事实、偏好和技能。
站内正文

LangSmith 无代码代理构建器正式发布

LangSmith 推出无代码代理构建器,让非技术人员也能轻松创建具有记忆、引导式提示和 MCP 工具的 AI 代理。该构建器通过对话式引导、内置记忆和子代理功能,降低了代理开发的门槛,适用于内部生产力场景。

  • LangSmith 代理构建器提供无代码体验,包含记忆和引导式提示创建。
  • 代理由提示、工具、触发器和子代理四个核心组件构成。
站内正文

Factory 如何利用 LangSmith 自动化反馈循环,将迭代速度提升 2 倍

Factory AI 通过 LangSmith 的可观测性和反馈 API 优化产品反馈循环,实现了迭代速度翻倍,并显著缩短了开发周期。

  • Factory 将 LangSmith 与 AWS CloudWatch 集成,提升了可观测性和调试效率。
  • 利用 LangSmith 的反馈 API,Factory 自动化了提示优化过程,减少了人工操作。
站内正文

推出 Open SWE:一款开源异步编码代理

Open SWE 是一款开源、云端托管的编码代理,能够自主处理 GitHub 任务,包括规划、编码、测试和提交拉取请求。它采用多代理架构,包含规划器、程序员和审查器,并支持人类参与循环和异步执行。

  • Open SWE 是一款开源的异步云端编码代理,可直接与 GitHub 集成。
  • 它使用多代理架构(规划器、程序员、审查器)来确保代码质量。
站内正文

Monte Carlo:使用 LangGraph 和 LangSmith 构建数据 + AI 可观测性代理

Monte Carlo 利用 LangGraph 构建 AI 故障排除代理,并使用 LangSmith 进行调试,帮助数据团队更快地解决问题。该代理能够并行探索多个调查路径,显著缩短根因分析时间。

  • Monte Carlo 采用 LangGraph 创建动态图结构,实现故障排除流程的自动化与并行化。
  • LangSmith 从开发初期就用于可视化和迭代提示工程,加速了代理的优化。
站内正文

分享 LangSmith 基准测试

LangSmith 推出公开基准测试和评估数据集共享功能,帮助开发者比较不同 LLM 架构在相同任务上的表现。首发数据集为 LangChain 文档问答数据集,并发布了 langchain-benchmarks 包以支持实验。文章分析了多种模型和架构的性能,并提供了调试方法。

  • LangSmith 现在支持共享评估数据集和结果,便于社区驱动的基准测试。
  • 首发基准测试是 LangChain 文档问答数据集,测试 RAG 系统的综合回答能力。
站内正文

LangSmith:改版产品主页与资源标签,实现更好的组织管理

LangSmith 产品主页重新划分为三大板块:可观测性、评估和提示工程。同时,资源标签功能得到增强,支持按应用或自定义标签灵活分组资源,未来还将引入基于属性的访问控制(ABAC)。

  • 主页分为可观测性、评估和提示工程三个部分,每个部分包含相关功能。
  • 资源标签现在支持按“应用”或其他自定义标签进行灵活过滤和组织。
站内正文

智能体工程:一门新兴学科

智能体工程是一门结合产品思维、工程和数据科学的新学科,旨在通过迭代构建、测试、发布、观察和优化的循环,将非确定性的LLM系统转变为可靠的工业生产体验。文章介绍了该学科的核心概念、所需技能、实践场景以及为什么现在需要它。

  • 智能体工程是迭代过程:构建、测试、发布、观察、优化、重复。
  • 结合产品思维(定义范围与行为)、工程(构建基础设施)、数据科学(测量与改进)。
站内正文

在LangSmith中测试微调的开源模型

本文介绍了如何使用LangSmith评估和比较微调后的开源LLM。作者通过微调Llama2-7b和13b模型来生成SQL,并在LangSmith上创建数据集、运行测试、用GPT-4自动评估。结果显示,13b模型在使用较少数据时仍接近GPT-3.5水平,证明了开源模型的竞争力。

  • LangSmith提供UI和API来创建评估数据集,方便测试多个模型。
  • 微调了Llama2-7b(78k行)和Llama2-13b(10k行)用于SQL生成。
站内正文

智能体改进循环中的人类判断

AI智能体在反映团队积累的知识和判断时效果最佳。本文探讨如何将人类判断融入智能体开发的生命周期,以交易员助手为例,讲解工作流设计、工具设计和上下文工程,并介绍通过自动化评估和监测来优化智能体的改进循环。

  • 智能体需要吸收领域专家的隐性知识
  • 通过工作流设计、工具设计和上下文工程融入人类判断
站内正文

深度代理的上下文管理

Deep Agents SDK通过卸载、摘要和文件系统抽象来管理长时间运行AI任务的上下文,防止上下文腐败。本文介绍了三种压缩技术:卸载大型工具结果、卸载大型工具输入和摘要,并提供了实践指导和评估方法。

  • Deep Agents SDK采用上下文压缩技术管理AI代理的有限记忆,包括卸载和摘要。
  • 三种压缩技术在上下文窗口不同阈值触发:卸载大型结果(>20K令牌)、卸载大型输入(>85%)、摘要(>85%且无可卸载内容)。
站内正文

循环工程的艺术

本文探讨了构建可靠AI代理的核心在于精心设计的循环架构,而不仅仅是模型本身。作者介绍了四种嵌套循环:代理循环、验证循环、事件驱动循环和爬山循环,并展示了如何使用LangChain原语实现每层循环。文章强调,通过将代理嵌入生态系统并持续改进,可以构建难以复制的竞争优势。

  • 代理循环让模型反复调用工具完成任务,是基础循环。
  • 验证循环通过评分与反馈确保输出质量。
站内正文

为什么Fleet同时拥有通用聊天和专业Agent

Fleet将Agent工作分为临时任务和重复任务两种模式,分别由通用聊天和专业Agent处理。通用聊天适合低配置的临时需求,而专业Agent通过持久指令、工具、子Agent和记忆等配置来处理重复性工作。本文详细介绍了两种Agent类型的设计理念、适用场景及配置差异。

  • 临时任务适合用通用聊天,无需预先配置。
  • 重复任务应使用专业Agent,支持自定义指令、工具和记忆。
站内正文

使用Fireworks构建成本降低100倍的追踪评判器

LangChain与Fireworks合作微调开放模型,从生产追踪中挖掘感知错误信号,以极低成本达到前沿模型性能。

  • LangSmith每天处理数十亿个token的生产追踪数据。
  • 通过微调Qwen模型检测“感知错误”,性能媲美或超越前沿模型,成本降低100倍。
站内正文

什么是AI智能体?

本文探讨了AI智能体的定义,提出智能体是一个使用LLM决定应用控制流的系统。作者赞同Andrew Ng的观点,认为智能体能力是一个频谱,并介绍了“智能体化”的概念及其在开发、运行、评估和监控中的意义。

  • AI智能体是利用LLM决定应用控制流的系统。
  • 智能体能力是一个频谱,从简单的路由到高度自主的智能体。
站内正文

我们如何构建LangChain的GTM代理

LangChain构建了一个基于Deep Agents的GTM代理,自动完成潜在客户研究和邮件起草,并整合账户情报,实现了线索转化率提升250%,每位销售代表每月节省40小时。

  • 代理自动化了外呼和入站线索处理,并通过Slack进行人工审核。
  • 使用Deep Agents进行多步骤编排,LangSmith进行评估和反馈。
站内正文

推出 Align Evals:简化 LLM 应用评估

LangSmith 的新功能 Align Evals 帮助开发者校准评估器,使其更符合人类偏好,从而减少评估分数与人工判断之间的差异。

  • Align Evals 通过人机对比迭代评估提示,提高 LLM 评估准确性。
  • 提供类似 Playground 的界面和基线对齐分数,方便追踪改进。
站内正文

如何以及何时构建多智能体系统

本文分析了两个看似对立的博客文章——Cognition团队的“不要构建多智能体”和Anthropic团队的“我们如何构建多智能体研究系统”,指出它们实际上有很多共同点,并提供了关于何时以及如何构建多智能体系统的见解。关键要点包括:上下文工程至关重要、以“读”为主的多智能体系统比以“写”为主的更容易、以及生产可靠性和工程挑战。文章还介绍了LangGraph和LangSmith等工具如何帮助解决这些挑战。

  • 上下文工程(Context Engineering)是构建多智能体系统中最关键的部分,需要动态地向模型传达其任务的上下文。
  • 以“读”为主的多智能体系统(如研究)比以“写”为主的(如编程)更容易实现,因为写操作需要更复杂的协调和合并。
站内正文

借助 Replit Agent 的复杂工作流,将 LangSmith 推向新高度

了解 Replit 如何利用 LangSmith 的观测能力调试复杂的代理工作流,包括改进的追踪性能、搜索功能和人机协同线程视图。

  • Replit Agent 使用 LangGraph 和 LangSmith 进行监控与调试。
  • LangSmith 针对大型追踪进行了性能优化,支持数百步骤的渲染。
站内正文

Interrupt 2025 大会回顾:LangChain 的 AI 代理大会

Interrupt 2025 是 LangChain 举办的首届行业大会,汇聚了来自全球的 800 名参与者。会议重点讨论了代理工程作为新学科、多模型应用、LangGraph 用于构建可靠代理以及 AI 可观测性等主题。同时,LangChain 发布了一系列新产品,包括 LangGraph Platform 正式版、Open Agent Platform、LangGraph Studio v2、LangGraph Pre-Builts、LangSmith 可观测性更新、Open Evals 和 LLM-as-Judge 等。

  • LangChain 举办了首届 Interrupt 2025 大会,聚焦 AI 代理的发展。
  • 大会发布了多项新产品,如 LangGraph Platform GA、Open Agent Platform 等。
站内正文

使用LangSmith进行成对评估

了解什么是成对评估,为什么在LLM应用开发中可能需要它,并通过LangChain的LangSmith示例了解如何使用它。

  • 成对评估通过直接比较两个候选答案来提升LLM的偏好学习。
  • LangSmith新增了自定义成对评估器,可基于任意标准比较LLM输出。
站内正文

使用Pinecone Serverless构建和部署RAG应用

本教程介绍如何利用Pinecone Serverless、LangChain和LangServe构建生产级RAG应用,解决原型与生产之间的差距,包括向量存储管理、快速部署和可观测性。

  • Pinecone Serverless提供按使用量付费和无限制扩展能力,解决托管向量存储的痛点。
  • LangServe支持将LangChain链快速部署为生产级Web服务。
站内正文

使用OpenEvals快速开始评估LLM

OpenEvals和AgentEvals提供了预构建的评估器,支持LLM-as-judge、结构化数据和代理轨迹评估。这些开源包帮助开发者快速建立评估流程,确保LLM应用可靠性。

  • OpenEvals和AgentEvals提供即用型评估器,覆盖LLM-as-judge、结构化数据和代理轨迹评估。
  • LLM-as-judge评估器可定制,支持少样本示例和评分模式,适用于对话质量、幻觉检测等场景。
站内正文

如何思考智能体框架

本文深入探讨了构建可靠智能体系统的核心挑战——确保LLM在每一步都拥有适当的上下文。作者比较了工作流与智能体、声明式与命令式方法,并介绍了LangGraph框架的设计理念。文章还批评了OpenAI的智能体指南,赞赏了Anthropic的定义,并讨论了框架的“天花板”与“地板”概念。

  • 构建可靠智能体系统的难点在于控制LLM在每一步的上下文。
  • 智能体系统包括工作流和智能体,大多数生产系统是二者的结合。
站内正文

将LLM作为评判与人类偏好对齐

LangSmith推出自我改进的LLM评判器,通过将人工修正存储为少样本示例,无需提示工程即可使评判与人类偏好保持一致。

  • LLM作为评判器广泛用于评估自然语言输出,但需要精心设计提示。
  • LangSmith的新功能将人工修正作为少样本示例存储,逐步提升评判器与人类偏好的一致性。
站内正文

全部来源