LangChain

來源分布

LangChain Blog35
Hacker News AI5
arXiv Machine Learning3
KDnuggets2
Machine Learning Mastery2
arXiv AI1
Latent Space1
NVIDIA Blog1

主題分布

Agent50
研究31
模型17
政策11
芯片8
創業融資1

日期線

2026-06-1712
2026-06-307
2026-07-086
2026-06-254
2026-07-033
2026-06-162
2026-06-272
2026-07-012

最新動態

AI代理架構教育實驗室

2026-07-11 23:33 UTC+8

一個基於LangChain和本地Ollama服務器的AI代理架構教育實驗室，包含多種代理變體，涵蓋聊天記憶、工具調用、RAG、混合和代理RAG等類別，每個變體均可獨立運行CLI以研究其機制。

提供多種AI代理架構變體，涵蓋聊天、工具調用、RAG和混合模式。
基於LangChain和本地Ollama服務器，支持OpenRouter。

OpenWiki Brains：AI代理的主動記憶框架

2026-07-11 00:46 UTC+8

OpenWiki Brains 是 LangChain 推出的新框架，通過連接 Gmail、Notion、Git 等多種來源，為 AI 代理提供主動的 Wiki 式記憶，並自動更新本地 Wiki。

OpenWiki Brains 將外部信息轉化為代理可用的本地 Wiki 記憶。
支持個人大腦（Personal Brain）和代碼大腦（Code Brain）兩種模式。

使用Perplexity Agent API、LangGraph和LangSmith構建可審計的風險投資研究代理

2026-07-09 23:58 UTC+8

瞭解如何構建一個風險投資研究代理，它能在90秒內生成帶有引用的投資備忘錄，使用Perplexity Agent API、LangGraph和LangSmith。該代理並行運行團隊、財務、產品和市場四個研究節點，然後綜合生成包含七個部分的備忘錄，包括論點與建議。每個聲明都可追溯到原始來源，確保輸出可審計。文章還比較了三個搜索提供商，並提供了構建類似代理的要點。

一個利用Perplexity Agent API、LangGraph和LangSmith構建的代理，能在約90秒內以約0.40美元的成本生成投資備忘錄草稿，每個聲明都有引用。
四個並行研究節點（團隊、財務、產品、市場）收集證據，然後一個無工具的合成器撰寫備忘錄。

LLM編排框架對比：LangChain vs. LlamaIndex vs. 原始API調用

2026-07-09 23:38 UTC+8

比較LangChain、LlamaIndex和原始API調用在LLM應用中的優缺點，提供選擇抽象層級的決策框架。

LangChain是通用編排工具，適合複雜工作流和代理，但可能帶來開銷和調試難度。
LlamaIndex專注於檢索增強生成（RAG），擅長數據攝入和索引。

LangChain與NVIDIA聯合發佈NemoClaw深度代理藍圖

2026-07-08 23:04 UTC+8

LangChain與NVIDIA合作推出NemoClaw深度代理藍圖，結合LangChain深度代理代碼、NVIDIA Nemotron 3 Ultra和OpenShell，為企業構建開放、受治理的代理系統。該藍圖在代理評估中實現了領先性能，且推理成本降低約10倍。

NemoClaw深度代理藍圖整合了LangChain的代理框架、NVIDIA的開放模型Nemotron 3 Ultra以及安全運行時OpenShell。
該藍圖在LangChain代理評估套件中達到0.86的綜合得分，成本僅為4.48美元，相比競爭對手的43.48美元，推理成本降低約10倍。

調校框架而非模型：Nemotron 3 Ultra實踐指南

2026-07-08 23:00 UTC+8

通過僅調整Nemotron 3 Ultra的外部框架（harness），在Deep Agents基準測試中達到接近Opus 4.8的最佳成績，成本降低約10倍。本文詳細介紹了評估驅動的方法、提示工程和中間件優化，以及哪些改進無效。

僅調整框架，Nemotron 3 Ultra在Deep Agents套件上達到0.86分，接近Opus 4.8的0.87分，成本降低約10倍。
評估是框架工作的訓練數據：每次更改都要通過追蹤驅動循環，先低成本篩選，重複驗證有效才保留。

NVIDIA Nemotron 藉助 LangChain 深度代理框架實現基準領先性能

2026-07-08 23:00 UTC+8

NVIDIA Nemotron 3 Ultra 與 LangChain 深度代理框架結合，在開放模型中取得最高準確率，同時以比頂級封閉模型低 10 倍的推理成本完成更多任務。該成果無需重新訓練模型，而是通過優化模型周圍環境實現。Abridge、Amdocs、Box 等企業正在將專業代理嵌入其平台，EY 等系統集成商則基於此開放棧為客户構建定製化代理。

LangChain 為 NVIDIA Nemotron 3 Ultra 調優的深度代理框架在開放模型中取得最高準確率，任務量更大且成本僅為封閉模型的 1/10。
所有性能提升均來自工程優化而非模型重新訓練，調整包括系統提示、工具描述和中間件。

在NVIDIA NemoClaw上運行Deep Agents Code：為最敏感代碼設計的治理藍圖

2026-07-08 23:00 UTC+8

Deep Agents Code現在可作為NVIDIA NemoClaw的治理藍圖運行，使用開放模型Nemotron 3 Ultra，提供默認拒絕網絡、人工審批和完整審計日誌，適用於敏感代碼現代化。

Deep Agents Code (dcode) 作為NemoClaw藍圖，運行開放模型Nemotron 3 Ultra，確保代碼、模型和審計軌跡自主可控。
默認拒絕網絡、人工審批和完整審計軌跡為監管團隊提供所需控制。

brAIn：基於NATS總線的反應式AI代理節點，而非聊天循環

2026-07-08 22:50 UTC+8

brAIn 是一個新穎的 AI 代理框架，它摒棄了傳統的聊天循環模型，轉而採用基於 NATS 發佈/訂閲總線的長駐守護節點架構。節點是反應式的，僅在相關消息到達時激活，避免了不必要的令牌消耗。每個節點可擁有獨立的用户界面，支持分佈式部署，並具備優先級搶佔、MCP 客户端集成等特性。作者通過視頻展示了其在實際場景中的應用，如環境感知代理、Slack 監聽器、物聯網控制器等。文章還對比了 brAIn 與 LangGraph、AutoGen、ROS 2 等現有工具的架構差異。

brAIn 使用 NATS 總線實現節點間的多對多通信，節點為長駐守護進程，響應式觸發。
每個節點可擁有獨立 UI，支持本地或遠程運行，並可在不同機器上分佈式部署。

[AINews] Lilian Weng總結35篇關於RSI的套件工程論文

2026-07-08 10:20 UTC+8

本期AINews涵蓋了2026年7月6日至7日的廣泛AI發展。亮點包括Lilian Weng對遞歸自我改進中套件工程深入分析、Meta推出Muse Image和預覽Muse Video（具有代理生成循環）、以及Anthropic、LangChain和Google在代理平台上的重大產品更新。其他值得注意的內容：NVIDIA的Audex音頻模型、Cohere的阿拉伯語ASR、與Hugging Face和NVIDIA的機器人集成、Liquid AI的Antidoom方法減少推理循環失敗、以及Anthropic有爭議的J-space可解釋性研究。還涵蓋了代理和法律AI的基準測試、研究自動化和推理效率進展。

Lilian Weng的博文將遞歸自我改進重新聚焦於套件工程而非直接權重修改，強調套件工程對於指定目標和上下文至關重要。
Meta的Muse Image和Muse Video展示了具有規劃、工具使用和自我細化的代理生成，迅速登上公共排行榜高位。

改進智能體是一個數據挖掘問題

2026-07-07 23:05 UTC+8

LangChain 通過挖掘智能體軌跡來發現失敗、微調比前沿 LLM 更便宜的評判模型，並利用評估來提升性能。

挖掘軌跡為你提供了攀登的信號
開放模型微調與複合智能體系統幫助你處理大規模軌跡數據

施耐德電氣如何利用LangSmith構建企業級LLMOps基礎

2026-07-07 23:00 UTC+8

施耐德電氣通過LangSmith構建了企業級LLMOps基礎，實現了對AI產品的可觀測性、評估和部署。其AI中心擁有350名專家，已部署60多個AI代理。本文介紹了三大支柱：可觀測性（自託管LangSmith，每個產品一個工作區）、評估（離線/在線評估及成熟度框架）和部署（每個產品獨立運行時）。案例包括內部AI助手One Jo、客户成功經理Copilot和文檔處理代理，展示了顯著效率提升。

施耐德電氣利用LangChain生態系統開發了60多個AI產品
採用自託管LangSmith實現數據隱私和合規

Deep Agents：一款“開箱即用”的智能體框架

2026-07-03 12:33 UTC+8

Deep Agents 是 LangChain 推出的一款開源智能體框架，專為長期、多步驟任務設計。它內置了子智能體、文件系統、上下文管理、Shell 訪問、持久化記憶以及人工審核等特性。該框架與模型無關，支持任何支持工具調用的 LLM，並基於 LangGraph 構建，具備生產級可靠性。

Deep Agents 是一個偏向意見、可擴展的智能體框架，構建於 LangGraph 之上。
內置子智能體、文件系統、上下文管理、Shell 訪問、持久化記憶和人工審核功能。

我們運行了一個複雜任務——使用Claude Fable模型分析LangChain倉庫

2026-07-03 07:01 UTC+8

一項詳細的實驗，比較了五個Claude模型（Opus、Fable、Sonnet、Sonnet 4.6、Haiku）對LangChain Python單倉的完整審計。Fable在評分上與Opus持平（A-），但在生成可操作的里程碑和快速勝利方面表現出色。文章展示了發現、優缺點，並推薦多模型流程。

五個Claude模型在LangChain的四階段審計中進行了測試。
Fable獲得A-，併產生了最具可操作性的改進計劃。

你的編程代理賬單翻倍了。以下是如何解決。

2026-07-03 01:29 UTC+8

隨着編程代理（如Claude Code、Cursor、Copilot）使用量激增，團隊賬單失控。本文分析了“tokenmaxxing”現象背後的碎片化問題，並提出了從可視化、標準化成本、優化使用到治理支出的四步解決方案，幫助團隊在多工具環境中有效管理AI開銷。

編程代理賬單因工具碎片化而失控，不同工具記錄格式不統一。
LangSmith提供統一的追蹤模型，跨工具比較會話成本和效率。

2026年你應該瞭解的10個人工智能代理框架

2026-07-02 22:00 UTC+8

本文全面介紹了2026年10個值得關注的人工智能代理框架，包括LangGraph、CrewAI、OpenAI Agents SDK、Google ADK、PydanticAI、smolagents、Mastra、Microsoft Agent Framework、Strands Agents和LlamaIndex Workflows，並分析了各自的優勢、最佳應用場景和權衡。無論你是需要精細控制的狀態機，還是快速原型開發，或是結構化輸出和類型安全，這裏都有適合你的選擇。

LangGraph提供對代理工作流的精細控制，適合複雜狀態機和人工參與的流程。
CrewAI基於角色分工，適用於快速構建多代理原型。

OpenWiki：為編程代理提供開源倉庫文檔

2026-07-02 01:58 UTC+8

OpenWiki 是一個開源代理和命令行工具，用於自動生成和維護代碼庫文檔。它創建倉庫維基，連接編程代理，並通過 GitHub Action 持續更新文檔，幫助代理更好地理解代碼庫上下文，從而提高編碼效率。

OpenWiki 自動為代碼庫生成維基文檔，並保持更新。
它通過在代理指令文件中添加引用，使編程代理能夠按需獲取文檔。

如何在Deep Agents中使用遞歸語言模型

2026-07-01 23:38 UTC+8

遞歸語言模型（RLM）通過讓代理編寫代碼將子代理分派到上下文塊上來解決上下文腐爛問題。Deep Agents現在通過動態子代理和輕量級代碼解釋器支持RLM，允許代理以編程方式對大型輸入執行grep、map和reduce操作。在OOLONG基準測試中，RLM在長上下文任務上優於逐輪代理。

RLM使用代碼遞歸調用子代理處理上下文塊，避免上下文窗口限制。
Deep Agents通過動態子代理和代碼解釋器實現RLM。

Pendo如何利用LangSmith追蹤Novus：從用户行為到代碼修復

2026-07-01 23:00 UTC+8

Pendo使用LangSmith對AI產品代理Novus進行調試、評估和監控，該代理將行為數據和會話回放轉化為代碼修復。LangSmith在生產環境中提供完整追蹤，幫助Pendo在幾天內將Novus交付生產，成功率達90%以上，並節省25%的評估新用例時間。

Novus是一款產品代理，可自動檢測並修復實時應用中的可用性問題。
LangSmith的追蹤功能幫助Pendo調試代理決策、監控成本並優化提示。

Harbor x LangChain：評估代理的統一堆棧

2026-06-30 23:22 UTC+8

Harbor是一個評估長期運行、有狀態代理的新工具，與LangChain的Deep Agents、LangSmith沙箱和可觀測性集成，實現了可擴展的隔離評估。本文介紹了Harbor的工作原理及如何通過LangGraph註冊表和插件集成。

Harbor通過langgraph.json註冊表和make_graph工廠連接代理，支持模型無關性。
LangSmith沙箱提供每個試驗隔離的環境，支持水平擴展並行運行數百個任務。

維基記憶

2026-06-30 22:46 UTC+8

本文提出“維基記憶”模式，即使用智能體將原始數據壓縮為持久化、結構化、可供智能體讀取的知識層。它與RAG不同，通過預計算並維護高層綜合，避免智能體每次重複發現結構。文章列舉了DeepWiki、Karpathy的LLM Wiki、Factory的AutoWiki等實例，並討論了原始數據格式、壓縮方法及更新維護等開放問題。

維基記憶是一種用智能體將原始數據轉化為緊湊、可重用的知識層的模式。
與RAG不同，它預計算並維護高層綜合，而非在查詢時檢索原始塊。

智能體AI管道用於設備級能源異常檢測與LLM驅動的建議

2026-06-30 12:00 UTC+8

本文提出一種端到端智能體管道，結合深度時間序列預測、變分異常檢測和LLM推理，為辦公樓設備級能源監控生成可操作的維護建議。系統使用混合SSA-LSTM預測模型和每設備LSTM VAE注意機制檢測異常，並通過三階段LangChain管道（上下文、診斷、報告智能體）生成診斷，配備動態檢索減少上下文開銷。在16個場景的基準測試中，最佳後端得分90.4/100，本地7B模型通過所有場景。

結合SSA-LSTM預測和LSTM VAE注意機制的異常檢測管道
三階段LangChain智能體管道：上下文、診斷、報告智能體，帶動態檢索

基準測試智能體工具使用能力

2026-06-30 09:27 UTC+8

LangChain 發佈了四個新的測試環境，用於評估大型語言模型（LLM）使用工具完成任務的能力，涉及規劃、函數調用和推理等關鍵技能。測試比較了 GPT-4、Claude 2.1、GPT-3.5 以及開源模型（如 Mistral 7b）的表現。關鍵發現包括：GPT-4 在關係數據任務中表現最佳，但在長時間軌跡中易出錯；Claude 2.1 在三個任務中與 GPT-4 相當；開源模型在多次函數組合上表現不佳；規劃能力仍是 LLM 的難點。

LangChain 推出四項基準測試，評估 LLM 的工具使用能力。
GPT-4 在關係數據任務中得分最高，但任務越複雜失敗率越高。

提取基準測試：比較GPT-4、Claude和開源LLM在從聊天日誌中提取結構化數據的能力

2026-06-30 09:27 UTC+8

LangChain發佈了一個新的提取基準數據集，用於評估LLM從聊天日誌中推斷結構化信息的能力。文章詳細介紹了數據集的創建過程、評估指標以及對GPT-4、Claude-2、Code Llama 2等模型的基準測試結果。實驗表明，GPT-4在多數指標上表現最佳，而開源模型在結構化輸出方面仍有挑戰。

LangChain發佈了針對聊天日誌的結構化提取基準數據集。
GPT-4在提取任務中全面優於Claude-2，尤其在JSON格式合規性上。

在Deep Agents中引入動態子代理

2026-06-30 00:17 UTC+8

動態子代理允許AI智能體使用代碼而非工具調用來大規模編排工作。瞭解Deep Agents中的程序化編排如何保證覆蓋範圍、處理扇出，並通過常見編排模式和實時跟蹤實現可靠的多步驟複雜智能體管道。

動態子代理通過編寫代碼來實現子任務的調度，取代了傳統的一對一工具調用，提高了大規模任務處理的可靠性。
程序化編排確保了確定性覆蓋和複雜邏輯，如循環、分支和併發，使得多階段管道和扇出加合成模式更加可靠。

如何利用LangSmith構建Candidly的狀態感知智能體引擎

2026-06-30 00:09 UTC+8

Candidly構建了一種狀態感知的對話智能體引擎，通過輸入-輸出隱馬爾可夫模型（IO-HMM）實時推斷用户參與狀態，並據此調整回覆策略，顯著降低對話放棄率。文章詳細介紹了從軌跡特徵提取、狀態模型訓練到策略部署和實驗驗證的全過程。

Candidly使用IO-HMM從對話軌跡中提取用户狀態和智能體行為特徵，模型識別出四種參與狀態：參與、詳細、引導和脱離。
基於狀態的策略將脱離狀態佔比從23%降至11%，顯著提升對話解決率。

我從我的AI代理棧中移除了向量數據庫

2026-06-27 08:05 UTC+8

Moss是一個亞10毫秒語義搜索運行時，專為對話式AI代理設計。它通過將搜索和嵌入嵌入到應用進程中，消除了對遠程向量數據庫的需求，從而將查詢延遲降至個位數毫秒。支持混合檢索、內置嵌入、元數據過濾，並提供Python、TypeScript、Elixir、C等SDK，以及LangChain、LlamaIndex等框架集成。基準測試顯示，在10萬文檔上，Moss的P50延遲為3.1毫秒，而Pinecone為432.6毫秒。

Moss是一個嵌入式語義搜索運行時，無需向量數據庫，查詢延遲低於10毫秒。
支持混合搜索（語義+關鍵詞）、內置嵌入和元數據過濾。

深度代理的提示緩存

2026-06-27 01:13 UTC+8

瞭解Deep Agents如何利用提示緩存，在無需額外配置的情況下，將各大模型提供商的LLM Token成本降低高達80%。

提示緩存通過存儲模型狀態，可使推理Token成本降低41-80%。
不同模型提供商對緩存控制的支持各不相同，增加了跨提供商優化的難度。

2026年6月：LangChain通訊——Fleet值班副駕駛、Deep Agents評分標準等

2026-06-26 01:42 UTC+8

LangSmith新增Fleet值班副駕駛用於告警分類、智能體計算機使用、語音跟蹤調試和實驗狀態跟蹤。還有Deep Agents評分標準、程序化子智能體、新的LangSmith部署課程，以及芝加哥、柏林、華盛頓特區和拉斯維加斯的即將舉行的活動。

Fleet On-Call Copilot：一個預構建的智能體模板，用於通過代碼、軌跡和運行手冊進行告警分類和更新草稿。
計算機使用：智能體現在可以使用隔離的虛擬計算機進行代碼、文件和經身份驗證的API調用。

最佳AI代理為何簡單：Sierra的Zack Reneau-Wedeen在Max Agency播客上的見解

2026-06-25 22:36 UTC+8

在Max Agency播客中，Zack Reneau-Wedeen分享了構建客户導向AI代理的經驗，強調簡單架構、基於結果的定價和避免“組織架構運輸”的重要性。他解釋了為什麼多代理系統常常是陷阱，以及如何通過並行運行多個模型來優化性能。

簡單的代理架構比複雜的多代理系統更有效
基於結果的定價模式有助於激勵高價值任務

Klarna的AI助手如何重新定義大規模客户支持，服務8500萬活躍用户

2026-06-25 04:08 UTC+8

Klarna利用LangGraph和LangSmith構建的AI助手，處理了相當於700名全職員工的工作量，將客户問題解決時間縮短80%，自動化了約70%的重複支持任務。

Klarna的AI助手基於LangGraph和LangSmith，處理超過250萬次對話，工作效率相當於700名全職員工。
AI助手將平均客户問題解決時間減少80%，自動化70%的重複支持任務。

LangSmith和LangChain OSS如何幫助您滿足歐盟AI法案要求

2026-06-25 03:56 UTC+8

歐盟AI法案合規截止日期為2026年8月2日。本文詳細介紹了該法案對高風險AI系統的具體要求，以及LangSmith和LangChain OSS如何通過全鏈路追蹤、自動化評估、人工監督等功能幫助您實現合規。

歐盟AI法案要求高風險AI系統建立風險管理、自動日誌、透明度、人工監督和持續監控等機制。
LangSmith提供端到端追蹤，捕獲代理的每個輸入、推理、工具調用和輸出，滿足可追溯性要求。

如何為AI Agent構建記憶系統

2026-06-25 00:11 UTC+8

本文介紹了為AI Agent添加記憶功能的實用方法，包括短期記憶和長期記憶的概念、追蹤分析以及如何利用LangSmith工具實現記憶循環，從而讓Agent從以往交互中學習並改進行為。

記憶讓Agent能記住用户偏好和修復過的錯誤，減少重複糾正。
短期記憶用於當前任務，長期記憶持久化事實、偏好和技能。

用Python構建能使用瀏覽器的AI代理

2026-06-22 20:00 UTC+8

本文介紹瞭如何使用Playwright、browser-use和LangGraph在Python中構建能瀏覽和操作真實網站的AI代理。文章涵蓋了Playwright相較於Selenium的優勢（持久WebSocket連接、內置瀏覽器二進制、自動等待等）、環境搭建步驟、動態頁面抓取、多步驟表單填寫、反爬蟲處理、會話持久化以及Docker部署。通過實際代碼示例，讀者將學會構建一個能導航網站、填寫表單、提取結構化數據並通過LLM決策的瀏覽器代理。

Playwright通過持久WebSocket連接實現比Selenium快30-50%的瀏覽器操作，並內置自動等待和真實鼠標/鍵盤事件。
環境搭建僅需Python 3.10+、OpenAI API密鑰和幾個pip安裝命令，包括Playwright瀏覽器二進制文件。

LangSmith 無代碼代理構建器正式發佈

2026-06-19 01:32 UTC+8

LangSmith 推出無代碼代理構建器，讓非技術人員也能輕鬆創建具有記憶、引導式提示和 MCP 工具的 AI 代理。該構建器通過對話式引導、內置記憶和子代理功能，降低了代理開發的門檻，適用於內部生產力場景。

LangSmith 代理構建器提供無代碼體驗，包含記憶和引導式提示創建。
代理由提示、工具、觸發器和子代理四個核心組件構成。

NAVI-Orbital：零樣本視覺語言模型首次在軌自主地球觀測演示

2026-06-18 12:00 UTC+8

本文介紹了NAVI-Orbital，一個部署在低地球軌道航天器上的軟件系統。2026年4月16日，它實現了首次在軌視覺語言模型自主多模態推理，使用Gemma 3模型對捕獲場景進行分類、描述，並通過自然語言對話響應操作員。該系統通過純英語提示重新任務，由基於圖的狀態機（LangGraph）協調。地面基準測試準確率88.16%，並在軌驗證了可行性，旨在通過語義壓縮反轉傳統帶寬模式。

首次在軌演示零樣本視覺語言模型進行自主多模態推理
使用Gemma 3和LangGraph實現自然語言任務重定向和對話

我如何（以及為何）構建了一個AI助手

2026-06-17 22:00 UTC+8

本文講述了作者為何選擇自建AI助手而非使用現有工具，詳細介紹了系統架構、技術棧選擇及實現過程，包括LLM、LangChain、內存管理和工具集成。

自建AI助手可提供更高控制力、數據隱私保護和定製化工作流。
技術棧包括GPT-4o、LangChain、SQLite持久化內存及DuckDuckGo搜索等工具。

多代理大型語言模型系統中併發異常的驗證檢測與預防

2026-06-17 12:00 UTC+8

該研究針對多代理LLM系統共享狀態導致的併發異常，提出了形式化定義和驗證檢測方法。通過TLA+建模四種異常（陳舊生成、幻影工具、因果級聯、工具效應重排序），並構建了一個經機械驗證的一致性層級L0到L4。使用274個Verus驗證義務，證明了檢測器的正確性和完備性。在三個已部署的Rust運行時中實現了L0-L1級別，並對比了字節跳動deer-flow和LangGraph中的實際異常案例。

形式化定義了多代理LLM系統中的四種併發異常，並建模為TLA+規格
構建了首個經機器驗證的一致性層級L0-L4，使用274個Verus義務

Factory 如何利用 LangSmith 自動化反饋循環，將迭代速度提升 2 倍

2026-06-17 02:11 UTC+8

Factory AI 通過 LangSmith 的可觀測性和反饋 API 優化產品反饋循環，實現了迭代速度翻倍，並顯著縮短了開發週期。

Factory 將 LangSmith 與 AWS CloudWatch 集成，提升了可觀測性和調試效率。
利用 LangSmith 的反饋 API，Factory 自動化了提示優化過程，減少了人工操作。

推出 Open SWE：一款開源異步編碼代理

2026-06-17 02:08 UTC+8

Open SWE 是一款開源、雲端託管的編碼代理，能夠自主處理 GitHub 任務，包括規劃、編碼、測試和提交拉取請求。它採用多代理架構，包含規劃器、程序員和審查器，並支持人類參與循環和異步執行。

Open SWE 是一款開源的異步雲端編碼代理，可直接與 GitHub 集成。
它使用多代理架構（規劃器、程序員、審查器）來確保代碼質量。

Monte Carlo：使用 LangGraph 和 LangSmith 構建數據 + AI 可觀測性代理

2026-06-17 02:08 UTC+8

Monte Carlo 利用 LangGraph 構建 AI 故障排除代理，並使用 LangSmith 進行調試，幫助數據團隊更快地解決問題。該代理能夠並行探索多個調查路徑，顯著縮短根因分析時間。

Monte Carlo 採用 LangGraph 創建動態圖結構，實現故障排除流程的自動化與並行化。
LangSmith 從開發初期就用於可視化和迭代提示工程，加速了代理的優化。

分享 LangSmith 基準測試

2026-06-17 02:07 UTC+8

LangSmith 推出公開基準測試和評估數據集共享功能，幫助開發者比較不同 LLM 架構在相同任務上的表現。首發數據集為 LangChain 文檔問答數據集，併發布了 langchain-benchmarks 包以支持實驗。文章分析了多種模型和架構的性能，並提供了調試方法。

LangSmith 現在支持共享評估數據集和結果，便於社區驅動的基準測試。
首發基準測試是 LangChain 文檔問答數據集，測試 RAG 系統的綜合回答能力。

LangSmith：改版產品主頁與資源標籤，實現更好的組織管理

2026-06-17 02:07 UTC+8

LangSmith 產品主頁重新劃分為三大板塊：可觀測性、評估和提示工程。同時，資源標籤功能得到增強，支持按應用或自定義標籤靈活分組資源，未來還將引入基於屬性的訪問控制（ABAC）。

主頁分為可觀測性、評估和提示工程三個部分，每個部分包含相關功能。
資源標籤現在支持按“應用”或其他自定義標籤進行靈活過濾和組織。

智能體工程：一門新興學科

2026-06-17 02:06 UTC+8

智能體工程是一門結合產品思維、工程和數據科學的新學科，旨在通過迭代構建、測試、發佈、觀察和優化的循環，將非確定性的LLM系統轉變為可靠的工業生產體驗。文章介紹了該學科的核心概念、所需技能、實踐場景以及為什麼現在需要它。

智能體工程是迭代過程：構建、測試、發佈、觀察、優化、重複。
結合產品思維（定義範圍與行為）、工程（構建基礎設施）、數據科學（測量與改進）。

在LangSmith中測試微調的開源模型

2026-06-17 02:06 UTC+8

本文介紹瞭如何使用LangSmith評估和比較微調後的開源LLM。作者通過微調Llama2-7b和13b模型來生成SQL，並在LangSmith上創建數據集、運行測試、用GPT-4自動評估。結果顯示，13b模型在使用較少數據時仍接近GPT-3.5水平，證明了開源模型的競爭力。

LangSmith提供UI和API來創建評估數據集，方便測試多個模型。
微調了Llama2-7b（78k行）和Llama2-13b（10k行）用於SQL生成。

智能體改進循環中的人類判斷

2026-06-17 02:04 UTC+8

AI智能體在反映團隊積累的知識和判斷時效果最佳。本文探討如何將人類判斷融入智能體開發的生命週期，以交易員助手為例，講解工作流設計、工具設計和上下文工程，並介紹通過自動化評估和監測來優化智能體的改進循環。

智能體需要吸收領域專家的隱性知識
通過工作流設計、工具設計和上下文工程融入人類判斷

深度代理的上下文管理

2026-06-17 02:04 UTC+8

Deep Agents SDK通過卸載、摘要和文件系統抽象來管理長時間運行AI任務的上下文，防止上下文腐敗。本文介紹了三種壓縮技術：卸載大型工具結果、卸載大型工具輸入和摘要，並提供了實踐指導和評估方法。

Deep Agents SDK採用上下文壓縮技術管理AI代理的有限記憶，包括卸載和摘要。
三種壓縮技術在上下文窗口不同閾值觸發：卸載大型結果（>20K令牌）、卸載大型輸入（>85%）、摘要（>85%且無可卸載內容）。

循環工程的藝術

2026-06-17 00:59 UTC+8

本文探討了構建可靠AI代理的核心在於精心設計的循環架構，而不僅僅是模型本身。作者介紹了四種嵌套循環：代理循環、驗證循環、事件驅動循環和爬山循環，並展示瞭如何使用LangChain原語實現每層循環。文章強調，通過將代理嵌入生態系統並持續改進，可以構建難以複製的競爭優勢。

代理循環讓模型反覆調用工具完成任務，是基礎循環。
驗證循環通過評分與反饋確保輸出質量。

為什麼Fleet同時擁有通用聊天和專業Agent

2026-06-16 23:50 UTC+8

Fleet將Agent工作分為臨時任務和重複任務兩種模式，分別由通用聊天和專業Agent處理。通用聊天適合低配置的臨時需求，而專業Agent通過持久指令、工具、子Agent和記憶等配置來處理重複性工作。本文詳細介紹了兩種Agent類型的設計理念、適用場景及配置差異。

臨時任務適合用通用聊天，無需預先配置。
重複任務應使用專業Agent，支持自定義指令、工具和記憶。

記住，不要重讀：面向令牌高效自主實驗的有狀態ReAct智能體

2026-06-16 12:00 UTC+8

該研究將自主實驗模式重構為基於LangGraph的有狀態ReAct智能體，通過持久化狀態避免每次迭代重建上下文，在超參數調優和代碼優化任務中分別減少90%和52%的令牌消耗，同時保持優化質量。

傳統的無狀態自主實驗每次迭代都會重建完整上下文，導致O(n²)的總令牌成本。
提出的有狀態ReAct智能體使用LangGraph的持久化狀態和工具調用接口，將每次迭代成本降至O(1)。

來源分布

主題分布

日期線

最新動態

AI代理架構教育實驗室

OpenWiki Brains：AI代理的主動記憶框架

使用Perplexity Agent API、LangGraph和LangSmith構建可審計的風險投資研究代理

LLM編排框架對比：LangChain vs. LlamaIndex vs. 原始API調用

LangChain與NVIDIA聯合發佈NemoClaw深度代理藍圖

調校框架而非模型：Nemotron 3 Ultra實踐指南

NVIDIA Nemotron 藉助 LangChain 深度代理框架實現基準領先性能

在NVIDIA NemoClaw上運行Deep Agents Code：為最敏感代碼設計的治理藍圖

brAIn：基於NATS總線的反應式AI代理節點，而非聊天循環

[AINews] Lilian Weng總結35篇關於RSI的套件工程論文

改進智能體是一個數據挖掘問題

施耐德電氣如何利用LangSmith構建企業級LLMOps基礎

Deep Agents：一款“開箱即用”的智能體框架

我們運行了一個複雜任務——使用Claude Fable模型分析LangChain倉庫

你的編程代理賬單翻倍了。以下是如何解決。

2026年你應該瞭解的10個人工智能代理框架

OpenWiki：為編程代理提供開源倉庫文檔

如何在Deep Agents中使用遞歸語言模型

Pendo如何利用LangSmith追蹤Novus：從用户行為到代碼修復

Harbor x LangChain：評估代理的統一堆棧

維基記憶

智能體AI管道用於設備級能源異常檢測與LLM驅動的建議

基準測試智能體工具使用能力

提取基準測試：比較GPT-4、Claude和開源LLM在從聊天日誌中提取結構化數據的能力

在Deep Agents中引入動態子代理

如何利用LangSmith構建Candidly的狀態感知智能體引擎

我從我的AI代理棧中移除了向量數據庫

深度代理的提示緩存

2026年6月：LangChain通訊——Fleet值班副駕駛、Deep Agents評分標準等

最佳AI代理為何簡單：Sierra的Zack Reneau-Wedeen在Max Agency播客上的見解

Klarna的AI助手如何重新定義大規模客户支持，服務8500萬活躍用户

LangSmith和LangChain OSS如何幫助您滿足歐盟AI法案要求

如何為AI Agent構建記憶系統

用Python構建能使用瀏覽器的AI代理

LangSmith 無代碼代理構建器正式發佈

NAVI-Orbital：零樣本視覺語言模型首次在軌自主地球觀測演示

我如何（以及為何）構建了一個AI助手

多代理大型語言模型系統中併發異常的驗證檢測與預防

Factory 如何利用 LangSmith 自動化反饋循環，將迭代速度提升 2 倍

推出 Open SWE：一款開源異步編碼代理

Monte Carlo：使用 LangGraph 和 LangSmith 構建數據 + AI 可觀測性代理

分享 LangSmith 基準測試

LangSmith：改版產品主頁與資源標籤，實現更好的組織管理

智能體工程：一門新興學科

在LangSmith中測試微調的開源模型

智能體改進循環中的人類判斷

深度代理的上下文管理

循環工程的藝術

為什麼Fleet同時擁有通用聊天和專業Agent

記住，不要重讀：面向令牌高效自主實驗的有狀態ReAct智能體

公司導航

OpenAI

Anthropic

DeepSeek

Google

Meta

Microsoft

NVIDIA

Mistral

Hugging Face

LangChain