AI News HubLIVE
公開文章 79採集文章 85可信度 84刷新頻率 30 分鐘
健康狀態 健康來源類型 研究原文權限 允許原文最近入庫 2026-06-26ID langchain-blog運行狀態 已啟用

Technical tool blog; verify individual post terms before full body display.

最新公開文章

深度代理的提示緩存

瞭解Deep Agents如何利用提示緩存,在無需額外配置的情況下,將各大模型提供商的LLM Token成本降低高達80%。

  • 提示緩存通過存儲模型狀態,可使推理Token成本降低41-80%。
  • 不同模型提供商對緩存控制的支持各不相同,增加了跨提供商優化的難度。
站內正文

2026年6月:LangChain通訊——Fleet值班副駕駛、Deep Agents評分標準等

LangSmith新增Fleet值班副駕駛用於告警分類、智能體計算機使用、語音跟蹤調試和實驗狀態跟蹤。還有Deep Agents評分標準、程序化子智能體、新的LangSmith部署課程,以及芝加哥、柏林、華盛頓特區和拉斯維加斯的即將舉行的活動。

  • Fleet On-Call Copilot:一個預構建的智能體模板,用於通過代碼、軌跡和運行手冊進行告警分類和更新草稿。
  • 計算機使用:智能體現在可以使用隔離的虛擬計算機進行代碼、文件和經身份驗證的API調用。
站內正文

最佳AI代理為何簡單:Sierra的Zack Reneau-Wedeen在Max Agency播客上的見解

在Max Agency播客中,Zack Reneau-Wedeen分享了構建客户導向AI代理的經驗,強調簡單架構、基於結果的定價和避免“組織架構運輸”的重要性。他解釋了為什麼多代理系統常常是陷阱,以及如何通過並行運行多個模型來優化性能。

  • 簡單的代理架構比複雜的多代理系統更有效
  • 基於結果的定價模式有助於激勵高價值任務
站內正文

Klarna的AI助手如何重新定義大規模客户支持,服務8500萬活躍用户

Klarna利用LangGraph和LangSmith構建的AI助手,處理了相當於700名全職員工的工作量,將客户問題解決時間縮短80%,自動化了約70%的重複支持任務。

  • Klarna的AI助手基於LangGraph和LangSmith,處理超過250萬次對話,工作效率相當於700名全職員工。
  • AI助手將平均客户問題解決時間減少80%,自動化70%的重複支持任務。
站內正文

LangSmith和LangChain OSS如何幫助您滿足歐盟AI法案要求

歐盟AI法案合規截止日期為2026年8月2日。本文詳細介紹了該法案對高風險AI系統的具體要求,以及LangSmith和LangChain OSS如何通過全鏈路追蹤、自動化評估、人工監督等功能幫助您實現合規。

  • 歐盟AI法案要求高風險AI系統建立風險管理、自動日誌、透明度、人工監督和持續監控等機制。
  • LangSmith提供端到端追蹤,捕獲代理的每個輸入、推理、工具調用和輸出,滿足可追溯性要求。
站內正文

如何為AI Agent構建記憶系統

本文介紹了為AI Agent添加記憶功能的實用方法,包括短期記憶和長期記憶的概念、追蹤分析以及如何利用LangSmith工具實現記憶循環,從而讓Agent從以往交互中學習並改進行為。

  • 記憶讓Agent能記住用户偏好和修復過的錯誤,減少重複糾正。
  • 短期記憶用於當前任務,長期記憶持久化事實、偏好和技能。
站內正文

LangSmith 無代碼代理構建器正式發佈

LangSmith 推出無代碼代理構建器,讓非技術人員也能輕鬆創建具有記憶、引導式提示和 MCP 工具的 AI 代理。該構建器通過對話式引導、內置記憶和子代理功能,降低了代理開發的門檻,適用於內部生產力場景。

  • LangSmith 代理構建器提供無代碼體驗,包含記憶和引導式提示創建。
  • 代理由提示、工具、觸發器和子代理四個核心組件構成。
站內正文

Factory 如何利用 LangSmith 自動化反饋循環,將迭代速度提升 2 倍

Factory AI 通過 LangSmith 的可觀測性和反饋 API 優化產品反饋循環,實現了迭代速度翻倍,並顯著縮短了開發週期。

  • Factory 將 LangSmith 與 AWS CloudWatch 集成,提升了可觀測性和調試效率。
  • 利用 LangSmith 的反饋 API,Factory 自動化了提示優化過程,減少了人工操作。
站內正文

推出 Open SWE:一款開源異步編碼代理

Open SWE 是一款開源、雲端託管的編碼代理,能夠自主處理 GitHub 任務,包括規劃、編碼、測試和提交拉取請求。它採用多代理架構,包含規劃器、程序員和審查器,並支持人類參與循環和異步執行。

  • Open SWE 是一款開源的異步雲端編碼代理,可直接與 GitHub 集成。
  • 它使用多代理架構(規劃器、程序員、審查器)來確保代碼質量。
站內正文

Monte Carlo:使用 LangGraph 和 LangSmith 構建數據 + AI 可觀測性代理

Monte Carlo 利用 LangGraph 構建 AI 故障排除代理,並使用 LangSmith 進行調試,幫助數據團隊更快地解決問題。該代理能夠並行探索多個調查路徑,顯著縮短根因分析時間。

  • Monte Carlo 採用 LangGraph 創建動態圖結構,實現故障排除流程的自動化與並行化。
  • LangSmith 從開發初期就用於可視化和迭代提示工程,加速了代理的優化。
站內正文

分享 LangSmith 基準測試

LangSmith 推出公開基準測試和評估數據集共享功能,幫助開發者比較不同 LLM 架構在相同任務上的表現。首發數據集為 LangChain 文檔問答數據集,併發布了 langchain-benchmarks 包以支持實驗。文章分析了多種模型和架構的性能,並提供了調試方法。

  • LangSmith 現在支持共享評估數據集和結果,便於社區驅動的基準測試。
  • 首發基準測試是 LangChain 文檔問答數據集,測試 RAG 系統的綜合回答能力。
站內正文

LangSmith:改版產品主頁與資源標籤,實現更好的組織管理

LangSmith 產品主頁重新劃分為三大板塊:可觀測性、評估和提示工程。同時,資源標籤功能得到增強,支持按應用或自定義標籤靈活分組資源,未來還將引入基於屬性的訪問控制(ABAC)。

  • 主頁分為可觀測性、評估和提示工程三個部分,每個部分包含相關功能。
  • 資源標籤現在支持按“應用”或其他自定義標籤進行靈活過濾和組織。
站內正文

智能體工程:一門新興學科

智能體工程是一門結合產品思維、工程和數據科學的新學科,旨在通過迭代構建、測試、發佈、觀察和優化的循環,將非確定性的LLM系統轉變為可靠的工業生產體驗。文章介紹了該學科的核心概念、所需技能、實踐場景以及為什麼現在需要它。

  • 智能體工程是迭代過程:構建、測試、發佈、觀察、優化、重複。
  • 結合產品思維(定義範圍與行為)、工程(構建基礎設施)、數據科學(測量與改進)。
站內正文

在LangSmith中測試微調的開源模型

本文介紹瞭如何使用LangSmith評估和比較微調後的開源LLM。作者通過微調Llama2-7b和13b模型來生成SQL,並在LangSmith上創建數據集、運行測試、用GPT-4自動評估。結果顯示,13b模型在使用較少數據時仍接近GPT-3.5水平,證明了開源模型的競爭力。

  • LangSmith提供UI和API來創建評估數據集,方便測試多個模型。
  • 微調了Llama2-7b(78k行)和Llama2-13b(10k行)用於SQL生成。
站內正文

智能體改進循環中的人類判斷

AI智能體在反映團隊積累的知識和判斷時效果最佳。本文探討如何將人類判斷融入智能體開發的生命週期,以交易員助手為例,講解工作流設計、工具設計和上下文工程,並介紹通過自動化評估和監測來優化智能體的改進循環。

  • 智能體需要吸收領域專家的隱性知識
  • 通過工作流設計、工具設計和上下文工程融入人類判斷
站內正文

深度代理的上下文管理

Deep Agents SDK通過卸載、摘要和文件系統抽象來管理長時間運行AI任務的上下文,防止上下文腐敗。本文介紹了三種壓縮技術:卸載大型工具結果、卸載大型工具輸入和摘要,並提供了實踐指導和評估方法。

  • Deep Agents SDK採用上下文壓縮技術管理AI代理的有限記憶,包括卸載和摘要。
  • 三種壓縮技術在上下文窗口不同閾值觸發:卸載大型結果(>20K令牌)、卸載大型輸入(>85%)、摘要(>85%且無可卸載內容)。
站內正文

循環工程的藝術

本文探討了構建可靠AI代理的核心在於精心設計的循環架構,而不僅僅是模型本身。作者介紹了四種嵌套循環:代理循環、驗證循環、事件驅動循環和爬山循環,並展示瞭如何使用LangChain原語實現每層循環。文章強調,通過將代理嵌入生態系統並持續改進,可以構建難以複製的競爭優勢。

  • 代理循環讓模型反覆調用工具完成任務,是基礎循環。
  • 驗證循環通過評分與反饋確保輸出質量。
站內正文

為什麼Fleet同時擁有通用聊天和專業Agent

Fleet將Agent工作分為臨時任務和重複任務兩種模式,分別由通用聊天和專業Agent處理。通用聊天適合低配置的臨時需求,而專業Agent通過持久指令、工具、子Agent和記憶等配置來處理重複性工作。本文詳細介紹了兩種Agent類型的設計理念、適用場景及配置差異。

  • 臨時任務適合用通用聊天,無需預先配置。
  • 重複任務應使用專業Agent,支持自定義指令、工具和記憶。
站內正文

使用Fireworks構建成本降低100倍的追蹤評判器

LangChain與Fireworks合作微調開放模型,從生產追蹤中挖掘感知錯誤信號,以極低成本達到前沿模型性能。

  • LangSmith每天處理數十億個token的生產追蹤數據。
  • 通過微調Qwen模型檢測“感知錯誤”,性能媲美或超越前沿模型,成本降低100倍。
站內正文

什麼是AI智能體?

本文探討了AI智能體的定義,提出智能體是一個使用LLM決定應用控制流的系統。作者贊同Andrew Ng的觀點,認為智能體能力是一個頻譜,並介紹了“智能體化”的概念及其在開發、運行、評估和監控中的意義。

  • AI智能體是利用LLM決定應用控制流的系統。
  • 智能體能力是一個頻譜,從簡單的路由到高度自主的智能體。
站內正文

我們如何構建LangChain的GTM代理

LangChain構建了一個基於Deep Agents的GTM代理,自動完成潛在客户研究和郵件起草,並整合賬户情報,實現了線索轉化率提升250%,每位銷售代表每月節省40小時。

  • 代理自動化了外呼和入站線索處理,並通過Slack進行人工審核。
  • 使用Deep Agents進行多步驟編排,LangSmith進行評估和反饋。
站內正文

推出 Align Evals:簡化 LLM 應用評估

LangSmith 的新功能 Align Evals 幫助開發者校準評估器,使其更符合人類偏好,從而減少評估分數與人工判斷之間的差異。

  • Align Evals 通過人機對比迭代評估提示,提高 LLM 評估準確性。
  • 提供類似 Playground 的界面和基線對齊分數,方便追蹤改進。
站內正文

如何以及何時構建多智能體系統

本文分析了兩個看似對立的博客文章——Cognition團隊的“不要構建多智能體”和Anthropic團隊的“我們如何構建多智能體研究系統”,指出它們實際上有很多共同點,並提供了關於何時以及如何構建多智能體系統的見解。關鍵要點包括:上下文工程至關重要、以“讀”為主的多智能體系統比以“寫”為主的更容易、以及生產可靠性和工程挑戰。文章還介紹了LangGraph和LangSmith等工具如何幫助解決這些挑戰。

  • 上下文工程(Context Engineering)是構建多智能體系統中最關鍵的部分,需要動態地向模型傳達其任務的上下文。
  • 以“讀”為主的多智能體系統(如研究)比以“寫”為主的(如編程)更容易實現,因為寫操作需要更復雜的協調和合並。
站內正文

藉助 Replit Agent 的複雜工作流,將 LangSmith 推向新高度

瞭解 Replit 如何利用 LangSmith 的觀測能力調試複雜的代理工作流,包括改進的追蹤性能、搜索功能和人機協同線程視圖。

  • Replit Agent 使用 LangGraph 和 LangSmith 進行監控與調試。
  • LangSmith 針對大型追蹤進行了性能優化,支持數百步驟的渲染。
站內正文

Interrupt 2025 大會回顧:LangChain 的 AI 代理大會

Interrupt 2025 是 LangChain 舉辦的首屆行業大會,匯聚了來自全球的 800 名參與者。會議重點討論了代理工程作為新學科、多模型應用、LangGraph 用於構建可靠代理以及 AI 可觀測性等主題。同時,LangChain 發佈了一系列新產品,包括 LangGraph Platform 正式版、Open Agent Platform、LangGraph Studio v2、LangGraph Pre-Builts、LangSmith 可觀測性更新、Open Evals 和 LLM-as-Judge 等。

  • LangChain 舉辦了首屆 Interrupt 2025 大會,聚焦 AI 代理的發展。
  • 大會發布了多項新產品,如 LangGraph Platform GA、Open Agent Platform 等。
站內正文

使用LangSmith進行成對評估

瞭解什麼是成對評估,為什麼在LLM應用開發中可能需要它,並通過LangChain的LangSmith示例瞭解如何使用它。

  • 成對評估通過直接比較兩個候選答案來提升LLM的偏好學習。
  • LangSmith新增了自定義成對評估器,可基於任意標準比較LLM輸出。
站內正文

使用Pinecone Serverless構建和部署RAG應用

本教程介紹如何利用Pinecone Serverless、LangChain和LangServe構建生產級RAG應用,解決原型與生產之間的差距,包括向量存儲管理、快速部署和可觀測性。

  • Pinecone Serverless提供按使用量付費和無限制擴展能力,解決託管向量存儲的痛點。
  • LangServe支持將LangChain鏈快速部署為生產級Web服務。
站內正文

使用OpenEvals快速開始評估LLM

OpenEvals和AgentEvals提供了預構建的評估器,支持LLM-as-judge、結構化數據和代理軌跡評估。這些開源包幫助開發者快速建立評估流程,確保LLM應用可靠性。

  • OpenEvals和AgentEvals提供即用型評估器,覆蓋LLM-as-judge、結構化數據和代理軌跡評估。
  • LLM-as-judge評估器可定製,支持少樣本示例和評分模式,適用於對話質量、幻覺檢測等場景。
站內正文

如何思考智能體框架

本文深入探討了構建可靠智能體系統的核心挑戰——確保LLM在每一步都擁有適當的上下文。作者比較了工作流與智能體、聲明式與命令式方法,並介紹了LangGraph框架的設計理念。文章還批評了OpenAI的智能體指南,讚賞了Anthropic的定義,並討論了框架的“天花板”與“地板”概念。

  • 構建可靠智能體系統的難點在於控制LLM在每一步的上下文。
  • 智能體系統包括工作流和智能體,大多數生產系統是二者的結合。
站內正文

將LLM作為評判與人類偏好對齊

LangSmith推出自我改進的LLM評判器,通過將人工修正存儲為少樣本示例,無需提示工程即可使評判與人類偏好保持一致。

  • LLM作為評判器廣泛用於評估自然語言輸出,但需要精心設計提示。
  • LangSmith的新功能將人工修正作為少樣本示例存儲,逐步提升評判器與人類偏好的一致性。
站內正文

全部來源