LangChain

来源分布

LangChain Blog35
Hacker News AI5
arXiv Machine Learning3
KDnuggets2
Machine Learning Mastery2
arXiv AI1
Latent Space1
NVIDIA Blog1

主题分布

Agent50
研究31
模型17
政策11
芯片8
创业融资1

日期线

2026-06-1712
2026-06-307
2026-07-086
2026-06-254
2026-07-033
2026-06-162
2026-06-272
2026-07-012

最新动态

AI代理架构教育实验室

2026-07-11 23:33 UTC+8

一个基于LangChain和本地Ollama服务器的AI代理架构教育实验室，包含多种代理变体，涵盖聊天记忆、工具调用、RAG、混合和代理RAG等类别，每个变体均可独立运行CLI以研究其机制。

提供多种AI代理架构变体，涵盖聊天、工具调用、RAG和混合模式。
基于LangChain和本地Ollama服务器，支持OpenRouter。

OpenWiki Brains：AI代理的主动记忆框架

2026-07-11 00:46 UTC+8

OpenWiki Brains 是 LangChain 推出的新框架，通过连接 Gmail、Notion、Git 等多种来源，为 AI 代理提供主动的 Wiki 式记忆，并自动更新本地 Wiki。

OpenWiki Brains 将外部信息转化为代理可用的本地 Wiki 记忆。
支持个人大脑（Personal Brain）和代码大脑（Code Brain）两种模式。

使用Perplexity Agent API、LangGraph和LangSmith构建可审计的风险投资研究代理

2026-07-09 23:58 UTC+8

了解如何构建一个风险投资研究代理，它能在90秒内生成带有引用的投资备忘录，使用Perplexity Agent API、LangGraph和LangSmith。该代理并行运行团队、财务、产品和市场四个研究节点，然后综合生成包含七个部分的备忘录，包括论点与建议。每个声明都可追溯到原始来源，确保输出可审计。文章还比较了三个搜索提供商，并提供了构建类似代理的要点。

一个利用Perplexity Agent API、LangGraph和LangSmith构建的代理，能在约90秒内以约0.40美元的成本生成投资备忘录草稿，每个声明都有引用。
四个并行研究节点（团队、财务、产品、市场）收集证据，然后一个无工具的合成器撰写备忘录。

LLM编排框架对比：LangChain vs. LlamaIndex vs. 原始API调用

2026-07-09 23:38 UTC+8

比较LangChain、LlamaIndex和原始API调用在LLM应用中的优缺点，提供选择抽象层级的决策框架。

LangChain是通用编排工具，适合复杂工作流和代理，但可能带来开销和调试难度。
LlamaIndex专注于检索增强生成（RAG），擅长数据摄入和索引。

LangChain与NVIDIA联合发布NemoClaw深度代理蓝图

2026-07-08 23:04 UTC+8

LangChain与NVIDIA合作推出NemoClaw深度代理蓝图，结合LangChain深度代理代码、NVIDIA Nemotron 3 Ultra和OpenShell，为企业构建开放、受治理的代理系统。该蓝图在代理评估中实现了领先性能，且推理成本降低约10倍。

NemoClaw深度代理蓝图整合了LangChain的代理框架、NVIDIA的开放模型Nemotron 3 Ultra以及安全运行时OpenShell。
该蓝图在LangChain代理评估套件中达到0.86的综合得分，成本仅为4.48美元，相比竞争对手的43.48美元，推理成本降低约10倍。

调校框架而非模型：Nemotron 3 Ultra实践指南

2026-07-08 23:00 UTC+8

通过仅调整Nemotron 3 Ultra的外部框架（harness），在Deep Agents基准测试中达到接近Opus 4.8的最佳成绩，成本降低约10倍。本文详细介绍了评估驱动的方法、提示工程和中间件优化，以及哪些改进无效。

仅调整框架，Nemotron 3 Ultra在Deep Agents套件上达到0.86分，接近Opus 4.8的0.87分，成本降低约10倍。
评估是框架工作的训练数据：每次更改都要通过追踪驱动循环，先低成本筛选，重复验证有效才保留。

NVIDIA Nemotron 借助 LangChain 深度代理框架实现基准领先性能

2026-07-08 23:00 UTC+8

NVIDIA Nemotron 3 Ultra 与 LangChain 深度代理框架结合，在开放模型中取得最高准确率，同时以比顶级封闭模型低 10 倍的推理成本完成更多任务。该成果无需重新训练模型，而是通过优化模型周围环境实现。Abridge、Amdocs、Box 等企业正在将专业代理嵌入其平台，EY 等系统集成商则基于此开放栈为客户构建定制化代理。

LangChain 为 NVIDIA Nemotron 3 Ultra 调优的深度代理框架在开放模型中取得最高准确率，任务量更大且成本仅为封闭模型的 1/10。
所有性能提升均来自工程优化而非模型重新训练，调整包括系统提示、工具描述和中间件。

在NVIDIA NemoClaw上运行Deep Agents Code：为最敏感代码设计的治理蓝图

2026-07-08 23:00 UTC+8

Deep Agents Code现在可作为NVIDIA NemoClaw的治理蓝图运行，使用开放模型Nemotron 3 Ultra，提供默认拒绝网络、人工审批和完整审计日志，适用于敏感代码现代化。

Deep Agents Code (dcode) 作为NemoClaw蓝图，运行开放模型Nemotron 3 Ultra，确保代码、模型和审计轨迹自主可控。
默认拒绝网络、人工审批和完整审计轨迹为监管团队提供所需控制。

brAIn：基于NATS总线的反应式AI代理节点，而非聊天循环

2026-07-08 22:50 UTC+8

brAIn 是一个新颖的 AI 代理框架，它摒弃了传统的聊天循环模型，转而采用基于 NATS 发布/订阅总线的长驻守护节点架构。节点是反应式的，仅在相关消息到达时激活，避免了不必要的令牌消耗。每个节点可拥有独立的用户界面，支持分布式部署，并具备优先级抢占、MCP 客户端集成等特性。作者通过视频展示了其在实际场景中的应用，如环境感知代理、Slack 监听器、物联网控制器等。文章还对比了 brAIn 与 LangGraph、AutoGen、ROS 2 等现有工具的架构差异。

brAIn 使用 NATS 总线实现节点间的多对多通信，节点为长驻守护进程，响应式触发。
每个节点可拥有独立 UI，支持本地或远程运行，并可在不同机器上分布式部署。

[AINews] Lilian Weng总结35篇关于RSI的套件工程论文

2026-07-08 10:20 UTC+8

本期AINews涵盖了2026年7月6日至7日的广泛AI发展。亮点包括Lilian Weng对递归自我改进中套件工程深入分析、Meta推出Muse Image和预览Muse Video（具有代理生成循环）、以及Anthropic、LangChain和Google在代理平台上的重大产品更新。其他值得注意的内容：NVIDIA的Audex音频模型、Cohere的阿拉伯语ASR、与Hugging Face和NVIDIA的机器人集成、Liquid AI的Antidoom方法减少推理循环失败、以及Anthropic有争议的J-space可解释性研究。还涵盖了代理和法律AI的基准测试、研究自动化和推理效率进展。

Lilian Weng的博文将递归自我改进重新聚焦于套件工程而非直接权重修改，强调套件工程对于指定目标和上下文至关重要。
Meta的Muse Image和Muse Video展示了具有规划、工具使用和自我细化的代理生成，迅速登上公共排行榜高位。

改进智能体是一个数据挖掘问题

2026-07-07 23:05 UTC+8

LangChain 通过挖掘智能体轨迹来发现失败、微调比前沿 LLM 更便宜的评判模型，并利用评估来提升性能。

挖掘轨迹为你提供了攀登的信号
开放模型微调与复合智能体系统帮助你处理大规模轨迹数据

施耐德电气如何利用LangSmith构建企业级LLMOps基础

2026-07-07 23:00 UTC+8

施耐德电气通过LangSmith构建了企业级LLMOps基础，实现了对AI产品的可观测性、评估和部署。其AI中心拥有350名专家，已部署60多个AI代理。本文介绍了三大支柱：可观测性（自托管LangSmith，每个产品一个工作区）、评估（离线/在线评估及成熟度框架）和部署（每个产品独立运行时）。案例包括内部AI助手One Jo、客户成功经理Copilot和文档处理代理，展示了显著效率提升。

施耐德电气利用LangChain生态系统开发了60多个AI产品
采用自托管LangSmith实现数据隐私和合规

Deep Agents：一款“开箱即用”的智能体框架

2026-07-03 12:33 UTC+8

Deep Agents 是 LangChain 推出的一款开源智能体框架，专为长期、多步骤任务设计。它内置了子智能体、文件系统、上下文管理、Shell 访问、持久化记忆以及人工审核等特性。该框架与模型无关，支持任何支持工具调用的 LLM，并基于 LangGraph 构建，具备生产级可靠性。

Deep Agents 是一个偏向意见、可扩展的智能体框架，构建于 LangGraph 之上。
内置子智能体、文件系统、上下文管理、Shell 访问、持久化记忆和人工审核功能。

我们运行了一个复杂任务——使用Claude Fable模型分析LangChain仓库

2026-07-03 07:01 UTC+8

一项详细的实验，比较了五个Claude模型（Opus、Fable、Sonnet、Sonnet 4.6、Haiku）对LangChain Python单仓的完整审计。Fable在评分上与Opus持平（A-），但在生成可操作的里程碑和快速胜利方面表现出色。文章展示了发现、优缺点，并推荐多模型流程。

五个Claude模型在LangChain的四阶段审计中进行了测试。
Fable获得A-，并产生了最具可操作性的改进计划。

你的编程代理账单翻倍了。以下是如何解决。

2026-07-03 01:29 UTC+8

随着编程代理（如Claude Code、Cursor、Copilot）使用量激增，团队账单失控。本文分析了“tokenmaxxing”现象背后的碎片化问题，并提出了从可视化、标准化成本、优化使用到治理支出的四步解决方案，帮助团队在多工具环境中有效管理AI开销。

编程代理账单因工具碎片化而失控，不同工具记录格式不统一。
LangSmith提供统一的追踪模型，跨工具比较会话成本和效率。

2026年你应该了解的10个人工智能代理框架

2026-07-02 22:00 UTC+8

本文全面介绍了2026年10个值得关注的人工智能代理框架，包括LangGraph、CrewAI、OpenAI Agents SDK、Google ADK、PydanticAI、smolagents、Mastra、Microsoft Agent Framework、Strands Agents和LlamaIndex Workflows，并分析了各自的优势、最佳应用场景和权衡。无论你是需要精细控制的状态机，还是快速原型开发，或是结构化输出和类型安全，这里都有适合你的选择。

LangGraph提供对代理工作流的精细控制，适合复杂状态机和人工参与的流程。
CrewAI基于角色分工，适用于快速构建多代理原型。

OpenWiki：为编程代理提供开源仓库文档

2026-07-02 01:58 UTC+8

OpenWiki 是一个开源代理和命令行工具，用于自动生成和维护代码库文档。它创建仓库维基，连接编程代理，并通过 GitHub Action 持续更新文档，帮助代理更好地理解代码库上下文，从而提高编码效率。

OpenWiki 自动为代码库生成维基文档，并保持更新。
它通过在代理指令文件中添加引用，使编程代理能够按需获取文档。

如何在Deep Agents中使用递归语言模型

2026-07-01 23:38 UTC+8

递归语言模型（RLM）通过让代理编写代码将子代理分派到上下文块上来解决上下文腐烂问题。Deep Agents现在通过动态子代理和轻量级代码解释器支持RLM，允许代理以编程方式对大型输入执行grep、map和reduce操作。在OOLONG基准测试中，RLM在长上下文任务上优于逐轮代理。

RLM使用代码递归调用子代理处理上下文块，避免上下文窗口限制。
Deep Agents通过动态子代理和代码解释器实现RLM。

Pendo如何利用LangSmith追踪Novus：从用户行为到代码修复

2026-07-01 23:00 UTC+8

Pendo使用LangSmith对AI产品代理Novus进行调试、评估和监控，该代理将行为数据和会话回放转化为代码修复。LangSmith在生产环境中提供完整追踪，帮助Pendo在几天内将Novus交付生产，成功率达90%以上，并节省25%的评估新用例时间。

Novus是一款产品代理，可自动检测并修复实时应用中的可用性问题。
LangSmith的追踪功能帮助Pendo调试代理决策、监控成本并优化提示。

Harbor x LangChain：评估代理的统一堆栈

2026-06-30 23:22 UTC+8

Harbor是一个评估长期运行、有状态代理的新工具，与LangChain的Deep Agents、LangSmith沙箱和可观测性集成，实现了可扩展的隔离评估。本文介绍了Harbor的工作原理及如何通过LangGraph注册表和插件集成。

Harbor通过langgraph.json注册表和make_graph工厂连接代理，支持模型无关性。
LangSmith沙箱提供每个试验隔离的环境，支持水平扩展并行运行数百个任务。

维基记忆

2026-06-30 22:46 UTC+8

本文提出“维基记忆”模式，即使用智能体将原始数据压缩为持久化、结构化、可供智能体读取的知识层。它与RAG不同，通过预计算并维护高层综合，避免智能体每次重复发现结构。文章列举了DeepWiki、Karpathy的LLM Wiki、Factory的AutoWiki等实例，并讨论了原始数据格式、压缩方法及更新维护等开放问题。

维基记忆是一种用智能体将原始数据转化为紧凑、可重用的知识层的模式。
与RAG不同，它预计算并维护高层综合，而非在查询时检索原始块。

智能体AI管道用于设备级能源异常检测与LLM驱动的建议

2026-06-30 12:00 UTC+8

本文提出一种端到端智能体管道，结合深度时间序列预测、变分异常检测和LLM推理，为办公楼设备级能源监控生成可操作的维护建议。系统使用混合SSA-LSTM预测模型和每设备LSTM VAE注意机制检测异常，并通过三阶段LangChain管道（上下文、诊断、报告智能体）生成诊断，配备动态检索减少上下文开销。在16个场景的基准测试中，最佳后端得分90.4/100，本地7B模型通过所有场景。

结合SSA-LSTM预测和LSTM VAE注意机制的异常检测管道
三阶段LangChain智能体管道：上下文、诊断、报告智能体，带动态检索

基准测试智能体工具使用能力

2026-06-30 09:27 UTC+8

LangChain 发布了四个新的测试环境，用于评估大型语言模型（LLM）使用工具完成任务的能力，涉及规划、函数调用和推理等关键技能。测试比较了 GPT-4、Claude 2.1、GPT-3.5 以及开源模型（如 Mistral 7b）的表现。关键发现包括：GPT-4 在关系数据任务中表现最佳，但在长时间轨迹中易出错；Claude 2.1 在三个任务中与 GPT-4 相当；开源模型在多次函数组合上表现不佳；规划能力仍是 LLM 的难点。

LangChain 推出四项基准测试，评估 LLM 的工具使用能力。
GPT-4 在关系数据任务中得分最高，但任务越复杂失败率越高。

提取基准测试：比较GPT-4、Claude和开源LLM在从聊天日志中提取结构化数据的能力

2026-06-30 09:27 UTC+8

LangChain发布了一个新的提取基准数据集，用于评估LLM从聊天日志中推断结构化信息的能力。文章详细介绍了数据集的创建过程、评估指标以及对GPT-4、Claude-2、Code Llama 2等模型的基准测试结果。实验表明，GPT-4在多数指标上表现最佳，而开源模型在结构化输出方面仍有挑战。

LangChain发布了针对聊天日志的结构化提取基准数据集。
GPT-4在提取任务中全面优于Claude-2，尤其在JSON格式合规性上。

在Deep Agents中引入动态子代理

2026-06-30 00:17 UTC+8

动态子代理允许AI智能体使用代码而非工具调用来大规模编排工作。了解Deep Agents中的程序化编排如何保证覆盖范围、处理扇出，并通过常见编排模式和实时跟踪实现可靠的多步骤复杂智能体管道。

动态子代理通过编写代码来实现子任务的调度，取代了传统的一对一工具调用，提高了大规模任务处理的可靠性。
程序化编排确保了确定性覆盖和复杂逻辑，如循环、分支和并发，使得多阶段管道和扇出加合成模式更加可靠。

如何利用LangSmith构建Candidly的状态感知智能体引擎

2026-06-30 00:09 UTC+8

Candidly构建了一种状态感知的对话智能体引擎，通过输入-输出隐马尔可夫模型（IO-HMM）实时推断用户参与状态，并据此调整回复策略，显著降低对话放弃率。文章详细介绍了从轨迹特征提取、状态模型训练到策略部署和实验验证的全过程。

Candidly使用IO-HMM从对话轨迹中提取用户状态和智能体行为特征，模型识别出四种参与状态：参与、详细、引导和脱离。
基于状态的策略将脱离状态占比从23%降至11%，显著提升对话解决率。

我从我的AI代理栈中移除了向量数据库

2026-06-27 08:05 UTC+8

Moss是一个亚10毫秒语义搜索运行时，专为对话式AI代理设计。它通过将搜索和嵌入嵌入到应用进程中，消除了对远程向量数据库的需求，从而将查询延迟降至个位数毫秒。支持混合检索、内置嵌入、元数据过滤，并提供Python、TypeScript、Elixir、C等SDK，以及LangChain、LlamaIndex等框架集成。基准测试显示，在10万文档上，Moss的P50延迟为3.1毫秒，而Pinecone为432.6毫秒。

Moss是一个嵌入式语义搜索运行时，无需向量数据库，查询延迟低于10毫秒。
支持混合搜索（语义+关键词）、内置嵌入和元数据过滤。

深度代理的提示缓存

2026-06-27 01:13 UTC+8

了解Deep Agents如何利用提示缓存，在无需额外配置的情况下，将各大模型提供商的LLM Token成本降低高达80%。

提示缓存通过存储模型状态，可使推理Token成本降低41-80%。
不同模型提供商对缓存控制的支持各不相同，增加了跨提供商优化的难度。

2026年6月：LangChain通讯——Fleet值班副驾驶、Deep Agents评分标准等

2026-06-26 01:42 UTC+8

LangSmith新增Fleet值班副驾驶用于告警分类、智能体计算机使用、语音跟踪调试和实验状态跟踪。还有Deep Agents评分标准、程序化子智能体、新的LangSmith部署课程，以及芝加哥、柏林、华盛顿特区和拉斯维加斯的即将举行的活动。

Fleet On-Call Copilot：一个预构建的智能体模板，用于通过代码、轨迹和运行手册进行告警分类和更新草稿。
计算机使用：智能体现在可以使用隔离的虚拟计算机进行代码、文件和经身份验证的API调用。

最佳AI代理为何简单：Sierra的Zack Reneau-Wedeen在Max Agency播客上的见解

2026-06-25 22:36 UTC+8

在Max Agency播客中，Zack Reneau-Wedeen分享了构建客户导向AI代理的经验，强调简单架构、基于结果的定价和避免“组织架构运输”的重要性。他解释了为什么多代理系统常常是陷阱，以及如何通过并行运行多个模型来优化性能。

简单的代理架构比复杂的多代理系统更有效
基于结果的定价模式有助于激励高价值任务

Klarna的AI助手如何重新定义大规模客户支持，服务8500万活跃用户

2026-06-25 04:08 UTC+8

Klarna利用LangGraph和LangSmith构建的AI助手，处理了相当于700名全职员工的工作量，将客户问题解决时间缩短80%，自动化了约70%的重复支持任务。

Klarna的AI助手基于LangGraph和LangSmith，处理超过250万次对话，工作效率相当于700名全职员工。
AI助手将平均客户问题解决时间减少80%，自动化70%的重复支持任务。

LangSmith和LangChain OSS如何帮助您满足欧盟AI法案要求

2026-06-25 03:56 UTC+8

欧盟AI法案合规截止日期为2026年8月2日。本文详细介绍了该法案对高风险AI系统的具体要求，以及LangSmith和LangChain OSS如何通过全链路追踪、自动化评估、人工监督等功能帮助您实现合规。

欧盟AI法案要求高风险AI系统建立风险管理、自动日志、透明度、人工监督和持续监控等机制。
LangSmith提供端到端追踪，捕获代理的每个输入、推理、工具调用和输出，满足可追溯性要求。

如何为AI Agent构建记忆系统

2026-06-25 00:11 UTC+8

本文介绍了为AI Agent添加记忆功能的实用方法，包括短期记忆和长期记忆的概念、追踪分析以及如何利用LangSmith工具实现记忆循环，从而让Agent从以往交互中学习并改进行为。

记忆让Agent能记住用户偏好和修复过的错误，减少重复纠正。
短期记忆用于当前任务，长期记忆持久化事实、偏好和技能。

用Python构建能使用浏览器的AI代理

2026-06-22 20:00 UTC+8

本文介绍了如何使用Playwright、browser-use和LangGraph在Python中构建能浏览和操作真实网站的AI代理。文章涵盖了Playwright相较于Selenium的优势（持久WebSocket连接、内置浏览器二进制、自动等待等）、环境搭建步骤、动态页面抓取、多步骤表单填写、反爬虫处理、会话持久化以及Docker部署。通过实际代码示例，读者将学会构建一个能导航网站、填写表单、提取结构化数据并通过LLM决策的浏览器代理。

Playwright通过持久WebSocket连接实现比Selenium快30-50%的浏览器操作，并内置自动等待和真实鼠标/键盘事件。
环境搭建仅需Python 3.10+、OpenAI API密钥和几个pip安装命令，包括Playwright浏览器二进制文件。

LangSmith 无代码代理构建器正式发布

2026-06-19 01:32 UTC+8

LangSmith 推出无代码代理构建器，让非技术人员也能轻松创建具有记忆、引导式提示和 MCP 工具的 AI 代理。该构建器通过对话式引导、内置记忆和子代理功能，降低了代理开发的门槛，适用于内部生产力场景。

LangSmith 代理构建器提供无代码体验，包含记忆和引导式提示创建。
代理由提示、工具、触发器和子代理四个核心组件构成。

NAVI-Orbital：零样本视觉语言模型首次在轨自主地球观测演示

2026-06-18 12:00 UTC+8

本文介绍了NAVI-Orbital，一个部署在低地球轨道航天器上的软件系统。2026年4月16日，它实现了首次在轨视觉语言模型自主多模态推理，使用Gemma 3模型对捕获场景进行分类、描述，并通过自然语言对话响应操作员。该系统通过纯英语提示重新任务，由基于图的状态机（LangGraph）协调。地面基准测试准确率88.16%，并在轨验证了可行性，旨在通过语义压缩反转传统带宽模式。

首次在轨演示零样本视觉语言模型进行自主多模态推理
使用Gemma 3和LangGraph实现自然语言任务重定向和对话

我如何（以及为何）构建了一个AI助手

2026-06-17 22:00 UTC+8

本文讲述了作者为何选择自建AI助手而非使用现有工具，详细介绍了系统架构、技术栈选择及实现过程，包括LLM、LangChain、内存管理和工具集成。

自建AI助手可提供更高控制力、数据隐私保护和定制化工作流。
技术栈包括GPT-4o、LangChain、SQLite持久化内存及DuckDuckGo搜索等工具。

多代理大型语言模型系统中并发异常的验证检测与预防

2026-06-17 12:00 UTC+8

该研究针对多代理LLM系统共享状态导致的并发异常，提出了形式化定义和验证检测方法。通过TLA+建模四种异常（陈旧生成、幻影工具、因果级联、工具效应重排序），并构建了一个经机械验证的一致性层级L0到L4。使用274个Verus验证义务，证明了检测器的正确性和完备性。在三个已部署的Rust运行时中实现了L0-L1级别，并对比了字节跳动deer-flow和LangGraph中的实际异常案例。

形式化定义了多代理LLM系统中的四种并发异常，并建模为TLA+规格
构建了首个经机器验证的一致性层级L0-L4，使用274个Verus义务

Factory 如何利用 LangSmith 自动化反馈循环，将迭代速度提升 2 倍

2026-06-17 02:11 UTC+8

Factory AI 通过 LangSmith 的可观测性和反馈 API 优化产品反馈循环，实现了迭代速度翻倍，并显著缩短了开发周期。

Factory 将 LangSmith 与 AWS CloudWatch 集成，提升了可观测性和调试效率。
利用 LangSmith 的反馈 API，Factory 自动化了提示优化过程，减少了人工操作。

推出 Open SWE：一款开源异步编码代理

2026-06-17 02:08 UTC+8

Open SWE 是一款开源、云端托管的编码代理，能够自主处理 GitHub 任务，包括规划、编码、测试和提交拉取请求。它采用多代理架构，包含规划器、程序员和审查器，并支持人类参与循环和异步执行。

Open SWE 是一款开源的异步云端编码代理，可直接与 GitHub 集成。
它使用多代理架构（规划器、程序员、审查器）来确保代码质量。

Monte Carlo：使用 LangGraph 和 LangSmith 构建数据 + AI 可观测性代理

2026-06-17 02:08 UTC+8

Monte Carlo 利用 LangGraph 构建 AI 故障排除代理，并使用 LangSmith 进行调试，帮助数据团队更快地解决问题。该代理能够并行探索多个调查路径，显著缩短根因分析时间。

Monte Carlo 采用 LangGraph 创建动态图结构，实现故障排除流程的自动化与并行化。
LangSmith 从开发初期就用于可视化和迭代提示工程，加速了代理的优化。

分享 LangSmith 基准测试

2026-06-17 02:07 UTC+8

LangSmith 推出公开基准测试和评估数据集共享功能，帮助开发者比较不同 LLM 架构在相同任务上的表现。首发数据集为 LangChain 文档问答数据集，并发布了 langchain-benchmarks 包以支持实验。文章分析了多种模型和架构的性能，并提供了调试方法。

LangSmith 现在支持共享评估数据集和结果，便于社区驱动的基准测试。
首发基准测试是 LangChain 文档问答数据集，测试 RAG 系统的综合回答能力。

LangSmith：改版产品主页与资源标签，实现更好的组织管理

2026-06-17 02:07 UTC+8

LangSmith 产品主页重新划分为三大板块：可观测性、评估和提示工程。同时，资源标签功能得到增强，支持按应用或自定义标签灵活分组资源，未来还将引入基于属性的访问控制（ABAC）。

主页分为可观测性、评估和提示工程三个部分，每个部分包含相关功能。
资源标签现在支持按“应用”或其他自定义标签进行灵活过滤和组织。

智能体工程：一门新兴学科

2026-06-17 02:06 UTC+8

智能体工程是一门结合产品思维、工程和数据科学的新学科，旨在通过迭代构建、测试、发布、观察和优化的循环，将非确定性的LLM系统转变为可靠的工业生产体验。文章介绍了该学科的核心概念、所需技能、实践场景以及为什么现在需要它。

智能体工程是迭代过程：构建、测试、发布、观察、优化、重复。
结合产品思维（定义范围与行为）、工程（构建基础设施）、数据科学（测量与改进）。

在LangSmith中测试微调的开源模型

2026-06-17 02:06 UTC+8

本文介绍了如何使用LangSmith评估和比较微调后的开源LLM。作者通过微调Llama2-7b和13b模型来生成SQL，并在LangSmith上创建数据集、运行测试、用GPT-4自动评估。结果显示，13b模型在使用较少数据时仍接近GPT-3.5水平，证明了开源模型的竞争力。

LangSmith提供UI和API来创建评估数据集，方便测试多个模型。
微调了Llama2-7b（78k行）和Llama2-13b（10k行）用于SQL生成。

智能体改进循环中的人类判断

2026-06-17 02:04 UTC+8

AI智能体在反映团队积累的知识和判断时效果最佳。本文探讨如何将人类判断融入智能体开发的生命周期，以交易员助手为例，讲解工作流设计、工具设计和上下文工程，并介绍通过自动化评估和监测来优化智能体的改进循环。

智能体需要吸收领域专家的隐性知识
通过工作流设计、工具设计和上下文工程融入人类判断

深度代理的上下文管理

2026-06-17 02:04 UTC+8

Deep Agents SDK通过卸载、摘要和文件系统抽象来管理长时间运行AI任务的上下文，防止上下文腐败。本文介绍了三种压缩技术：卸载大型工具结果、卸载大型工具输入和摘要，并提供了实践指导和评估方法。

Deep Agents SDK采用上下文压缩技术管理AI代理的有限记忆，包括卸载和摘要。
三种压缩技术在上下文窗口不同阈值触发：卸载大型结果（>20K令牌）、卸载大型输入（>85%）、摘要（>85%且无可卸载内容）。

循环工程的艺术

2026-06-17 00:59 UTC+8

本文探讨了构建可靠AI代理的核心在于精心设计的循环架构，而不仅仅是模型本身。作者介绍了四种嵌套循环：代理循环、验证循环、事件驱动循环和爬山循环，并展示了如何使用LangChain原语实现每层循环。文章强调，通过将代理嵌入生态系统并持续改进，可以构建难以复制的竞争优势。

代理循环让模型反复调用工具完成任务，是基础循环。
验证循环通过评分与反馈确保输出质量。

为什么Fleet同时拥有通用聊天和专业Agent

2026-06-16 23:50 UTC+8

Fleet将Agent工作分为临时任务和重复任务两种模式，分别由通用聊天和专业Agent处理。通用聊天适合低配置的临时需求，而专业Agent通过持久指令、工具、子Agent和记忆等配置来处理重复性工作。本文详细介绍了两种Agent类型的设计理念、适用场景及配置差异。

临时任务适合用通用聊天，无需预先配置。
重复任务应使用专业Agent，支持自定义指令、工具和记忆。

记住，不要重读：面向令牌高效自主实验的有状态ReAct智能体

2026-06-16 12:00 UTC+8

该研究将自主实验模式重构为基于LangGraph的有状态ReAct智能体，通过持久化状态避免每次迭代重建上下文，在超参数调优和代码优化任务中分别减少90%和52%的令牌消耗，同时保持优化质量。

传统的无状态自主实验每次迭代都会重建完整上下文，导致O(n²)的总令牌成本。
提出的有状态ReAct智能体使用LangGraph的持久化状态和工具调用接口，将每次迭代成本降至O(1)。

来源分布

主题分布

日期线

最新动态

AI代理架构教育实验室

OpenWiki Brains：AI代理的主动记忆框架

使用Perplexity Agent API、LangGraph和LangSmith构建可审计的风险投资研究代理

LLM编排框架对比：LangChain vs. LlamaIndex vs. 原始API调用

LangChain与NVIDIA联合发布NemoClaw深度代理蓝图

调校框架而非模型：Nemotron 3 Ultra实践指南

NVIDIA Nemotron 借助 LangChain 深度代理框架实现基准领先性能

在NVIDIA NemoClaw上运行Deep Agents Code：为最敏感代码设计的治理蓝图

brAIn：基于NATS总线的反应式AI代理节点，而非聊天循环

[AINews] Lilian Weng总结35篇关于RSI的套件工程论文

改进智能体是一个数据挖掘问题

施耐德电气如何利用LangSmith构建企业级LLMOps基础

Deep Agents：一款“开箱即用”的智能体框架

我们运行了一个复杂任务——使用Claude Fable模型分析LangChain仓库

你的编程代理账单翻倍了。以下是如何解决。

2026年你应该了解的10个人工智能代理框架

OpenWiki：为编程代理提供开源仓库文档

如何在Deep Agents中使用递归语言模型

Pendo如何利用LangSmith追踪Novus：从用户行为到代码修复

Harbor x LangChain：评估代理的统一堆栈

维基记忆

智能体AI管道用于设备级能源异常检测与LLM驱动的建议

基准测试智能体工具使用能力

提取基准测试：比较GPT-4、Claude和开源LLM在从聊天日志中提取结构化数据的能力

在Deep Agents中引入动态子代理

如何利用LangSmith构建Candidly的状态感知智能体引擎

我从我的AI代理栈中移除了向量数据库

深度代理的提示缓存

2026年6月：LangChain通讯——Fleet值班副驾驶、Deep Agents评分标准等

最佳AI代理为何简单：Sierra的Zack Reneau-Wedeen在Max Agency播客上的见解

Klarna的AI助手如何重新定义大规模客户支持，服务8500万活跃用户

LangSmith和LangChain OSS如何帮助您满足欧盟AI法案要求

如何为AI Agent构建记忆系统

用Python构建能使用浏览器的AI代理

LangSmith 无代码代理构建器正式发布

NAVI-Orbital：零样本视觉语言模型首次在轨自主地球观测演示

我如何（以及为何）构建了一个AI助手

多代理大型语言模型系统中并发异常的验证检测与预防

Factory 如何利用 LangSmith 自动化反馈循环，将迭代速度提升 2 倍

推出 Open SWE：一款开源异步编码代理

Monte Carlo：使用 LangGraph 和 LangSmith 构建数据 + AI 可观测性代理

分享 LangSmith 基准测试

LangSmith：改版产品主页与资源标签，实现更好的组织管理

智能体工程：一门新兴学科

在LangSmith中测试微调的开源模型

智能体改进循环中的人类判断

深度代理的上下文管理

循环工程的艺术

为什么Fleet同时拥有通用聊天和专业Agent

记住，不要重读：面向令牌高效自主实验的有状态ReAct智能体

公司导航

OpenAI

Anthropic

DeepSeek

Google

Meta

Microsoft

NVIDIA

Mistral

Hugging Face

LangChain