深度代理的提示緩存
瞭解Deep Agents如何利用提示緩存,在無需額外配置的情況下,將各大模型提供商的LLM Token成本降低高達80%。
- 提示緩存通過存儲模型狀態,可使推理Token成本降低41-80%。
- 不同模型提供商對緩存控制的支持各不相同,增加了跨提供商優化的難度。
Technical tool blog; verify individual post terms before full body display.
瞭解Deep Agents如何利用提示緩存,在無需額外配置的情況下,將各大模型提供商的LLM Token成本降低高達80%。
LangSmith新增Fleet值班副駕駛用於告警分類、智能體計算機使用、語音跟蹤調試和實驗狀態跟蹤。還有Deep Agents評分標準、程序化子智能體、新的LangSmith部署課程,以及芝加哥、柏林、華盛頓特區和拉斯維加斯的即將舉行的活動。
在Max Agency播客中,Zack Reneau-Wedeen分享了構建客户導向AI代理的經驗,強調簡單架構、基於結果的定價和避免“組織架構運輸”的重要性。他解釋了為什麼多代理系統常常是陷阱,以及如何通過並行運行多個模型來優化性能。
Klarna利用LangGraph和LangSmith構建的AI助手,處理了相當於700名全職員工的工作量,將客户問題解決時間縮短80%,自動化了約70%的重複支持任務。
歐盟AI法案合規截止日期為2026年8月2日。本文詳細介紹了該法案對高風險AI系統的具體要求,以及LangSmith和LangChain OSS如何通過全鏈路追蹤、自動化評估、人工監督等功能幫助您實現合規。
本文介紹了為AI Agent添加記憶功能的實用方法,包括短期記憶和長期記憶的概念、追蹤分析以及如何利用LangSmith工具實現記憶循環,從而讓Agent從以往交互中學習並改進行為。
LangSmith 推出無代碼代理構建器,讓非技術人員也能輕鬆創建具有記憶、引導式提示和 MCP 工具的 AI 代理。該構建器通過對話式引導、內置記憶和子代理功能,降低了代理開發的門檻,適用於內部生產力場景。
Factory AI 通過 LangSmith 的可觀測性和反饋 API 優化產品反饋循環,實現了迭代速度翻倍,並顯著縮短了開發週期。
Open SWE 是一款開源、雲端託管的編碼代理,能夠自主處理 GitHub 任務,包括規劃、編碼、測試和提交拉取請求。它採用多代理架構,包含規劃器、程序員和審查器,並支持人類參與循環和異步執行。
Monte Carlo 利用 LangGraph 構建 AI 故障排除代理,並使用 LangSmith 進行調試,幫助數據團隊更快地解決問題。該代理能夠並行探索多個調查路徑,顯著縮短根因分析時間。
LangSmith 推出公開基準測試和評估數據集共享功能,幫助開發者比較不同 LLM 架構在相同任務上的表現。首發數據集為 LangChain 文檔問答數據集,併發布了 langchain-benchmarks 包以支持實驗。文章分析了多種模型和架構的性能,並提供了調試方法。
LangSmith 產品主頁重新劃分為三大板塊:可觀測性、評估和提示工程。同時,資源標籤功能得到增強,支持按應用或自定義標籤靈活分組資源,未來還將引入基於屬性的訪問控制(ABAC)。
智能體工程是一門結合產品思維、工程和數據科學的新學科,旨在通過迭代構建、測試、發佈、觀察和優化的循環,將非確定性的LLM系統轉變為可靠的工業生產體驗。文章介紹了該學科的核心概念、所需技能、實踐場景以及為什麼現在需要它。
本文介紹瞭如何使用LangSmith評估和比較微調後的開源LLM。作者通過微調Llama2-7b和13b模型來生成SQL,並在LangSmith上創建數據集、運行測試、用GPT-4自動評估。結果顯示,13b模型在使用較少數據時仍接近GPT-3.5水平,證明了開源模型的競爭力。
AI智能體在反映團隊積累的知識和判斷時效果最佳。本文探討如何將人類判斷融入智能體開發的生命週期,以交易員助手為例,講解工作流設計、工具設計和上下文工程,並介紹通過自動化評估和監測來優化智能體的改進循環。
Deep Agents SDK通過卸載、摘要和文件系統抽象來管理長時間運行AI任務的上下文,防止上下文腐敗。本文介紹了三種壓縮技術:卸載大型工具結果、卸載大型工具輸入和摘要,並提供了實踐指導和評估方法。
本文探討了構建可靠AI代理的核心在於精心設計的循環架構,而不僅僅是模型本身。作者介紹了四種嵌套循環:代理循環、驗證循環、事件驅動循環和爬山循環,並展示瞭如何使用LangChain原語實現每層循環。文章強調,通過將代理嵌入生態系統並持續改進,可以構建難以複製的競爭優勢。
Fleet將Agent工作分為臨時任務和重複任務兩種模式,分別由通用聊天和專業Agent處理。通用聊天適合低配置的臨時需求,而專業Agent通過持久指令、工具、子Agent和記憶等配置來處理重複性工作。本文詳細介紹了兩種Agent類型的設計理念、適用場景及配置差異。
LangChain與Fireworks合作微調開放模型,從生產追蹤中挖掘感知錯誤信號,以極低成本達到前沿模型性能。
本文探討了AI智能體的定義,提出智能體是一個使用LLM決定應用控制流的系統。作者贊同Andrew Ng的觀點,認為智能體能力是一個頻譜,並介紹了“智能體化”的概念及其在開發、運行、評估和監控中的意義。
LangChain構建了一個基於Deep Agents的GTM代理,自動完成潛在客户研究和郵件起草,並整合賬户情報,實現了線索轉化率提升250%,每位銷售代表每月節省40小時。
LangSmith 的新功能 Align Evals 幫助開發者校準評估器,使其更符合人類偏好,從而減少評估分數與人工判斷之間的差異。
本文分析了兩個看似對立的博客文章——Cognition團隊的“不要構建多智能體”和Anthropic團隊的“我們如何構建多智能體研究系統”,指出它們實際上有很多共同點,並提供了關於何時以及如何構建多智能體系統的見解。關鍵要點包括:上下文工程至關重要、以“讀”為主的多智能體系統比以“寫”為主的更容易、以及生產可靠性和工程挑戰。文章還介紹了LangGraph和LangSmith等工具如何幫助解決這些挑戰。
瞭解 Replit 如何利用 LangSmith 的觀測能力調試複雜的代理工作流,包括改進的追蹤性能、搜索功能和人機協同線程視圖。
Interrupt 2025 是 LangChain 舉辦的首屆行業大會,匯聚了來自全球的 800 名參與者。會議重點討論了代理工程作為新學科、多模型應用、LangGraph 用於構建可靠代理以及 AI 可觀測性等主題。同時,LangChain 發佈了一系列新產品,包括 LangGraph Platform 正式版、Open Agent Platform、LangGraph Studio v2、LangGraph Pre-Builts、LangSmith 可觀測性更新、Open Evals 和 LLM-as-Judge 等。
瞭解什麼是成對評估,為什麼在LLM應用開發中可能需要它,並通過LangChain的LangSmith示例瞭解如何使用它。
本教程介紹如何利用Pinecone Serverless、LangChain和LangServe構建生產級RAG應用,解決原型與生產之間的差距,包括向量存儲管理、快速部署和可觀測性。
OpenEvals和AgentEvals提供了預構建的評估器,支持LLM-as-judge、結構化數據和代理軌跡評估。這些開源包幫助開發者快速建立評估流程,確保LLM應用可靠性。
本文深入探討了構建可靠智能體系統的核心挑戰——確保LLM在每一步都擁有適當的上下文。作者比較了工作流與智能體、聲明式與命令式方法,並介紹了LangGraph框架的設計理念。文章還批評了OpenAI的智能體指南,讚賞了Anthropic的定義,並討論了框架的“天花板”與“地板”概念。
LangSmith推出自我改進的LLM評判器,通過將人工修正存儲為少樣本示例,無需提示工程即可使評判與人類偏好保持一致。