LangChain

來源分布

LangChain Blog35
Hacker News AI5
arXiv Machine Learning3
KDnuggets2
Machine Learning Mastery2
arXiv AI1
Latent Space1
NVIDIA Blog1

主題分布

Agent50
研究31
模型17
政策11
晶片8
創業融資1

日期線

2026-06-1712
2026-06-307
2026-07-086
2026-06-254
2026-07-033
2026-06-162
2026-06-272
2026-07-012

最新動態

AI代理架構教育實驗室

2026-07-11 23:33 UTC+8

一個基於LangChain和本地Ollama伺服器的AI代理架構教育實驗室，包含多種代理變體，涵蓋聊天記憶、工具呼叫、RAG、混合和代理RAG等類別，每個變體均可獨立執行CLI以研究其機制。

提供多種AI代理架構變體，涵蓋聊天、工具呼叫、RAG和混合模式。
基於LangChain和本地Ollama伺服器，支援OpenRouter。

OpenWiki Brains：AI代理的主動記憶框架

2026-07-11 00:46 UTC+8

OpenWiki Brains 是 LangChain 推出的新框架，透過連線 Gmail、Notion、Git 等多種來源，為 AI 代理提供主動的 Wiki 式記憶，並自動更新本地 Wiki。

OpenWiki Brains 將外部資訊轉化為代理可用的本地 Wiki 記憶。
支援個人大腦（Personal Brain）和程式碼大腦（Code Brain）兩種模式。

使用Perplexity Agent API、LangGraph和LangSmith構建可審計的風險投資研究代理

2026-07-09 23:58 UTC+8

瞭解如何構建一個風險投資研究代理，它能在90秒內生成帶有引用的投資備忘錄，使用Perplexity Agent API、LangGraph和LangSmith。該代理並行執行團隊、財務、產品和市場四個研究節點，然後綜合生成包含七個部分的備忘錄，包括論點與建議。每個宣告都可追溯到原始來源，確保輸出可審計。文章還比較了三個搜尋提供商，並提供了構建類似代理的要點。

一個利用Perplexity Agent API、LangGraph和LangSmith構建的代理，能在約90秒內以約0.40美元的成本生成投資備忘錄草稿，每個宣告都有引用。
四個並行研究節點（團隊、財務、產品、市場）收集證據，然後一個無工具的合成器撰寫備忘錄。

LLM編排框架對比：LangChain vs. LlamaIndex vs. 原始API呼叫

2026-07-09 23:38 UTC+8

比較LangChain、LlamaIndex和原始API呼叫在LLM應用中的優缺點，提供選擇抽象層級的決策框架。

LangChain是通用編排工具，適合複雜工作流和代理，但可能帶來開銷和除錯難度。
LlamaIndex專注於檢索增強生成（RAG），擅長資料攝入和索引。

LangChain與NVIDIA聯合釋出NemoClaw深度代理藍圖

2026-07-08 23:04 UTC+8

LangChain與NVIDIA合作推出NemoClaw深度代理藍圖，結合LangChain深度代理程式碼、NVIDIA Nemotron 3 Ultra和OpenShell，為企業構建開放、受治理的代理系統。該藍圖在代理評估中實現了領先效能，且推理成本降低約10倍。

NemoClaw深度代理藍圖整合了LangChain的代理框架、NVIDIA的開放模型Nemotron 3 Ultra以及安全執行時OpenShell。
該藍圖在LangChain代理評估套件中達到0.86的綜合得分，成本僅為4.48美元，相比競爭對手的43.48美元，推理成本降低約10倍。

調校框架而非模型：Nemotron 3 Ultra實踐指南

2026-07-08 23:00 UTC+8

透過僅調整Nemotron 3 Ultra的外部框架（harness），在Deep Agents基準測試中達到接近Opus 4.8的最佳成績，成本降低約10倍。本文詳細介紹了評估驅動的方法、提示工程和中介軟體最佳化，以及哪些改進無效。

僅調整框架，Nemotron 3 Ultra在Deep Agents套件上達到0.86分，接近Opus 4.8的0.87分，成本降低約10倍。
評估是框架工作的訓練資料：每次更改都要透過追蹤驅動迴圈，先低成本篩選，重複驗證有效才保留。

NVIDIA Nemotron 藉助 LangChain 深度代理框架實現基準領先效能

2026-07-08 23:00 UTC+8

NVIDIA Nemotron 3 Ultra 與 LangChain 深度代理框架結合，在開放模型中取得最高準確率，同時以比頂級封閉模型低 10 倍的推理成本完成更多工。該成果無需重新訓練模型，而是透過最佳化模型周圍環境實現。Abridge、Amdocs、Box 等企業正在將專業代理嵌入其平臺，EY 等系統整合商則基於此開放棧為客戶構建定製化代理。

LangChain 為 NVIDIA Nemotron 3 Ultra 調優的深度代理框架在開放模型中取得最高準確率，任務量更大且成本僅為封閉模型的 1/10。
所有效能提升均來自工程最佳化而非模型重新訓練，調整包括系統提示、工具描述和中介軟體。

在NVIDIA NemoClaw上執行Deep Agents Code：為最敏感程式碼設計的治理藍圖

2026-07-08 23:00 UTC+8

Deep Agents Code現在可作為NVIDIA NemoClaw的治理藍圖執行，使用開放模型Nemotron 3 Ultra，提供預設拒絕網路、人工審批和完整審計日誌，適用於敏感程式碼現代化。

Deep Agents Code (dcode) 作為NemoClaw藍圖，執行開放模型Nemotron 3 Ultra，確保程式碼、模型和審計軌跡自主可控。
預設拒絕網路、人工審批和完整審計軌跡為監管團隊提供所需控制。

brAIn：基於NATS匯流排的反應式AI代理節點，而非聊天迴圈

2026-07-08 22:50 UTC+8

brAIn 是一個新穎的 AI 代理框架，它摒棄了傳統的聊天迴圈模型，轉而採用基於 NATS 釋出/訂閱匯流排的長駐守護節點架構。節點是反應式的，僅在相關訊息到達時啟用，避免了不必要的令牌消耗。每個節點可擁有獨立的使用者介面，支援分散式部署，並具備優先順序搶佔、MCP 客戶端整合等特性。作者透過影片展示了其在實際場景中的應用，如環境感知代理、Slack 監聽器、物聯網控制器等。文章還對比了 brAIn 與 LangGraph、AutoGen、ROS 2 等現有工具的架構差異。

brAIn 使用 NATS 匯流排實現節點間的多對多通訊，節點為長駐守護程序，響應式觸發。
每個節點可擁有獨立 UI，支援本地或遠端執行，並可在不同機器上分散式部署。

[AINews] Lilian Weng總結35篇關於RSI的套件工程論文

2026-07-08 10:20 UTC+8

本期AINews涵蓋了2026年7月6日至7日的廣泛AI發展。亮點包括Lilian Weng對遞迴自我改進中套件工程深入分析、Meta推出Muse Image和預覽Muse Video（具有代理生成迴圈）、以及Anthropic、LangChain和Google在代理平臺上的重大產品更新。其他值得注意的內容：NVIDIA的Audex音訊模型、Cohere的阿拉伯語ASR、與Hugging Face和NVIDIA的機器人整合、Liquid AI的Antidoom方法減少推理迴圈失敗、以及Anthropic有爭議的J-space可解釋性研究。還涵蓋了代理和法律AI的基準測試、研究自動化和推理效率進展。

Lilian Weng的博文將遞迴自我改進重新聚焦於套件工程而非直接權重修改，強調套件工程對於指定目標和上下文至關重要。
Meta的Muse Image和Muse Video展示了具有規劃、工具使用和自我細化的代理生成，迅速登上公共排行榜高位。

改進智慧體是一個資料探勘問題

2026-07-07 23:05 UTC+8

LangChain 透過挖掘智慧體軌跡來發現失敗、微調比前沿 LLM 更便宜的評判模型，並利用評估來提升效能。

挖掘軌跡為你提供了攀登的訊號
開放模型微調與複合智慧體系統幫助你處理大規模軌跡資料

施耐德電氣如何利用LangSmith構建企業級LLMOps基礎

2026-07-07 23:00 UTC+8

施耐德電氣透過LangSmith構建了企業級LLMOps基礎，實現了對AI產品的可觀測性、評估和部署。其AI中心擁有350名專家，已部署60多個AI代理。本文介紹了三大支柱：可觀測性（自託管LangSmith，每個產品一個工作區）、評估（離線/線上評估及成熟度框架）和部署（每個產品獨立執行時）。案例包括內部AI助手One Jo、客戶成功經理Copilot和文件處理代理，展示了顯著效率提升。

施耐德電氣利用LangChain生態系統開發了60多個AI產品
採用自託管LangSmith實現資料隱私和合規

Deep Agents：一款“開箱即用”的智慧體框架

2026-07-03 12:33 UTC+8

Deep Agents 是 LangChain 推出的一款開源智慧體框架，專為長期、多步驟任務設計。它內建了子智慧體、檔案系統、上下文管理、Shell 訪問、持久化記憶以及人工稽核等特性。該框架與模型無關，支援任何支援工具呼叫的 LLM，並基於 LangGraph 構建，具備生產級可靠性。

Deep Agents 是一個偏向意見、可擴充套件的智慧體框架，構建於 LangGraph 之上。
內建子智慧體、檔案系統、上下文管理、Shell 訪問、持久化記憶和人工稽核功能。

我們執行了一個複雜任務——使用Claude Fable模型分析LangChain倉庫

2026-07-03 07:01 UTC+8

一項詳細的實驗，比較了五個Claude模型（Opus、Fable、Sonnet、Sonnet 4.6、Haiku）對LangChain Python單倉的完整審計。Fable在評分上與Opus持平（A-），但在生成可操作的里程碑和快速勝利方面表現出色。文章展示了發現、優缺點，並推薦多模型流程。

五個Claude模型在LangChain的四階段審計中進行了測試。
Fable獲得A-，併產生了最具可操作性的改進計劃。

你的程式設計代理賬單翻倍了。以下是如何解決。

2026-07-03 01:29 UTC+8

隨著程式設計代理（如Claude Code、Cursor、Copilot）使用量激增，團隊賬單失控。本文分析了“tokenmaxxing”現象背後的碎片化問題，並提出了從視覺化、標準化成本、最佳化使用到治理支出的四步解決方案，幫助團隊在多工具環境中有效管理AI開銷。

程式設計代理賬單因工具碎片化而失控，不同工具記錄格式不統一。
LangSmith提供統一的追蹤模型，跨工具比較會話成本和效率。

2026年你應該瞭解的10個人工智慧代理框架

2026-07-02 22:00 UTC+8

本文全面介紹了2026年10個值得關注的人工智慧代理框架，包括LangGraph、CrewAI、OpenAI Agents SDK、Google ADK、PydanticAI、smolagents、Mastra、Microsoft Agent Framework、Strands Agents和LlamaIndex Workflows，並分析了各自的優勢、最佳應用場景和權衡。無論你是需要精細控制的狀態機，還是快速原型開發，或是結構化輸出和型別安全，這裡都有適合你的選擇。

LangGraph提供對代理工作流的精細控制，適合複雜狀態機和人工參與的流程。
CrewAI基於角色分工，適用於快速構建多代理原型。

OpenWiki：為程式設計代理提供開源倉庫文件

2026-07-02 01:58 UTC+8

OpenWiki 是一個開源代理和命令列工具，用於自動生成和維護程式碼庫文件。它建立倉庫維基，連線程式設計代理，並透過 GitHub Action 持續更新文件，幫助代理更好地理解程式碼庫上下文，從而提高編碼效率。

OpenWiki 自動為程式碼庫生成維基文件，並保持更新。
它透過在代理指令檔案中新增引用，使程式設計代理能夠按需獲取文件。

如何在Deep Agents中使用遞迴語言模型

2026-07-01 23:38 UTC+8

遞迴語言模型（RLM）透過讓代理編寫程式碼將子代理分派到上下文塊上來解決上下文腐爛問題。Deep Agents現在透過動態子代理和輕量級程式碼直譯器支援RLM，允許代理以程式設計方式對大型輸入執行grep、map和reduce操作。在OOLONG基準測試中，RLM在長上下文任務上優於逐輪代理。

RLM使用程式碼遞迴呼叫子代理處理上下文塊，避免上下文視窗限制。
Deep Agents透過動態子代理和程式碼直譯器實現RLM。

Pendo如何利用LangSmith追蹤Novus：從使用者行為到程式碼修復

2026-07-01 23:00 UTC+8

Pendo使用LangSmith對AI產品代理Novus進行除錯、評估和監控，該代理將行為資料和會話回放轉化為程式碼修復。LangSmith在生產環境中提供完整追蹤，幫助Pendo在幾天內將Novus交付生產，成功率達90%以上，並節省25%的評估新用例時間。

Novus是一款產品代理，可自動檢測並修復即時應用中的可用性問題。
LangSmith的追蹤功能幫助Pendo除錯代理決策、監控成本並最佳化提示。

Harbor x LangChain：評估代理的統一堆疊

2026-06-30 23:22 UTC+8

Harbor是一個評估長期執行、有狀態代理的新工具，與LangChain的Deep Agents、LangSmith沙箱和可觀測性整合，實現了可擴充套件的隔離評估。本文介紹了Harbor的工作原理及如何透過LangGraph登錄檔和外掛整合。

Harbor透過langgraph.json登錄檔和make_graph工廠連線代理，支援模型無關性。
LangSmith沙箱提供每個試驗隔離的環境，支援水平擴充套件並行執行數百個任務。

維基記憶

2026-06-30 22:46 UTC+8

本文提出“維基記憶”模式，即使用智慧體將原始資料壓縮為持久化、結構化、可供智慧體讀取的知識層。它與RAG不同，透過預計算並維護高層綜合，避免智慧體每次重複發現結構。文章列舉了DeepWiki、Karpathy的LLM Wiki、Factory的AutoWiki等例項，並討論了原始資料格式、壓縮方法及更新維護等開放問題。

維基記憶是一種用智慧體將原始資料轉化為緊湊、可重用的知識層的模式。
與RAG不同，它預計算並維護高層綜合，而非在查詢時檢索原始塊。

智慧體AI管道用於裝置級能源異常檢測與LLM驅動的建議

2026-06-30 12:00 UTC+8

本文提出一種端到端智慧體管道，結合深度時間序列預測、變分異常檢測和LLM推理，為辦公樓裝置級能源監控生成可操作的維護建議。系統使用混合SSA-LSTM預測模型和每裝置LSTM VAE注意機制檢測異常，並透過三階段LangChain管道（上下文、診斷、報告智慧體）生成診斷，配備動態檢索減少上下文開銷。在16個場景的基準測試中，最佳後端得分90.4/100，本地7B模型透過所有場景。

結合SSA-LSTM預測和LSTM VAE注意機制的異常檢測管道
三階段LangChain智慧體管道：上下文、診斷、報告智慧體，帶動態檢索

基準測試智慧體工具使用能力

2026-06-30 09:27 UTC+8

LangChain 釋出了四個新的測試環境，用於評估大型語言模型（LLM）使用工具完成任務的能力，涉及規劃、函式呼叫和推理等關鍵技能。測試比較了 GPT-4、Claude 2.1、GPT-3.5 以及開源模型（如 Mistral 7b）的表現。關鍵發現包括：GPT-4 在關係資料任務中表現最佳，但在長時間軌跡中易出錯；Claude 2.1 在三個任務中與 GPT-4 相當；開源模型在多次函式組合上表現不佳；規劃能力仍是 LLM 的難點。

LangChain 推出四項基準測試，評估 LLM 的工具使用能力。
GPT-4 在關係資料任務中得分最高，但任務越複雜失敗率越高。

提取基準測試：比較GPT-4、Claude和開源LLM在從聊天日誌中提取結構化資料的能力

2026-06-30 09:27 UTC+8

LangChain釋出了一個新的提取基準資料集，用於評估LLM從聊天日誌中推斷結構化資訊的能力。文章詳細介紹了資料集的建立過程、評估指標以及對GPT-4、Claude-2、Code Llama 2等模型的基準測試結果。實驗表明，GPT-4在多數指標上表現最佳，而開源模型在結構化輸出方面仍有挑戰。

LangChain釋出了針對聊天日誌的結構化提取基準資料集。
GPT-4在提取任務中全面優於Claude-2，尤其在JSON格式合規性上。

在Deep Agents中引入動態子代理

2026-06-30 00:17 UTC+8

動態子代理允許AI智慧體使用程式碼而非工具呼叫來大規模編排工作。瞭解Deep Agents中的程式化編排如何保證覆蓋範圍、處理扇出，並透過常見編排模式和即時跟蹤實現可靠的多步驟複雜智慧體管道。

動態子代理透過編寫程式碼來實現子任務的排程，取代了傳統的一對一工具呼叫，提高了大規模任務處理的可靠性。
程式化編排確保了確定性覆蓋和複雜邏輯，如迴圈、分支和併發，使得多階段管道和扇出加合成模式更加可靠。

如何利用LangSmith構建Candidly的狀態感知智慧體引擎

2026-06-30 00:09 UTC+8

Candidly構建了一種狀態感知的對話智慧體引擎，透過輸入-輸出隱馬爾可夫模型（IO-HMM）即時推斷使用者參與狀態，並據此調整回覆策略，顯著降低對話放棄率。文章詳細介紹了從軌跡特徵提取、狀態模型訓練到策略部署和實驗驗證的全過程。

Candidly使用IO-HMM從對話軌跡中提取使用者狀態和智慧體行為特徵，模型識別出四種參與狀態：參與、詳細、引導和脫離。
基於狀態的策略將脫離狀態佔比從23%降至11%，顯著提升對話解決率。

我從我的AI代理棧中移除了向量資料庫

2026-06-27 08:05 UTC+8

Moss是一個亞10毫秒語義搜尋執行時，專為對話式AI代理設計。它透過將搜尋和嵌入嵌入到應用程序中，消除了對遠端向量資料庫的需求，從而將查詢延遲降至個位數毫秒。支援混合檢索、內建嵌入、後設資料過濾，並提供Python、TypeScript、Elixir、C等SDK，以及LangChain、LlamaIndex等框架整合。基準測試顯示，在10萬文件上，Moss的P50延遲為3.1毫秒，而Pinecone為432.6毫秒。

Moss是一個嵌入式語義搜尋執行時，無需向量資料庫，查詢延遲低於10毫秒。
支援混合搜尋（語義+關鍵詞）、內建嵌入和後設資料過濾。

深度代理的提示快取

2026-06-27 01:13 UTC+8

瞭解Deep Agents如何利用提示快取，在無需額外配置的情況下，將各大模型提供商的LLM Token成本降低高達80%。

提示快取透過儲存模型狀態，可使推理Token成本降低41-80%。
不同模型提供商對快取控制的支援各不相同，增加了跨提供商最佳化的難度。

2026年6月：LangChain通訊——Fleet值班副駕駛、Deep Agents評分標準等

2026-06-26 01:42 UTC+8

LangSmith新增Fleet值班副駕駛用於告警分類、智慧體計算機使用、語音跟蹤除錯和實驗狀態跟蹤。還有Deep Agents評分標準、程式化子智慧體、新的LangSmith部署課程，以及芝加哥、柏林、華盛頓特區和拉斯維加斯的即將舉行的活動。

Fleet On-Call Copilot：一個預構建的智慧體模板，用於透過程式碼、軌跡和執行手冊進行告警分類和更新草稿。
計算機使用：智慧體現在可以使用隔離的虛擬計算機進行程式碼、檔案和經身份驗證的API呼叫。

最佳AI代理為何簡單：Sierra的Zack Reneau-Wedeen在Max Agency播客上的見解

2026-06-25 22:36 UTC+8

在Max Agency播客中，Zack Reneau-Wedeen分享了構建客戶導向AI代理的經驗，強調簡單架構、基於結果的定價和避免“組織架構運輸”的重要性。他解釋了為什麼多代理系統常常是陷阱，以及如何透過並行執行多個模型來最佳化效能。

簡單的代理架構比複雜的多代理系統更有效
基於結果的定價模式有助於激勵高價值任務

Klarna的AI助手如何重新定義大規模客戶支援，服務8500萬活躍使用者

2026-06-25 04:08 UTC+8

Klarna利用LangGraph和LangSmith構建的AI助手，處理了相當於700名全職員工的工作量，將客戶問題解決時間縮短80%，自動化了約70%的重複支援任務。

Klarna的AI助手基於LangGraph和LangSmith，處理超過250萬次對話，工作效率相當於700名全職員工。
AI助手將平均客戶問題解決時間減少80%，自動化70%的重複支援任務。

LangSmith和LangChain OSS如何幫助您滿足歐盟AI法案要求

2026-06-25 03:56 UTC+8

歐盟AI法案合規截止日期為2026年8月2日。本文詳細介紹了該法案對高風險AI系統的具體要求，以及LangSmith和LangChain OSS如何透過全鏈路追蹤、自動化評估、人工監督等功能幫助您實現合規。

歐盟AI法案要求高風險AI系統建立風險管理、自動日誌、透明度、人工監督和持續監控等機制。
LangSmith提供端到端追蹤，捕獲代理的每個輸入、推理、工具呼叫和輸出，滿足可追溯性要求。

如何為AI Agent構建記憶系統

2026-06-25 00:11 UTC+8

本文介紹了為AI Agent新增記憶功能的實用方法，包括短期記憶和長期記憶的概念、追蹤分析以及如何利用LangSmith工具實現記憶迴圈，從而讓Agent從以往互動中學習並改進行為。

記憶讓Agent能記住使用者偏好和修復過的錯誤，減少重複糾正。
短期記憶用於當前任務，長期記憶持久化事實、偏好和技能。

用Python構建能使用瀏覽器的AI代理

2026-06-22 20:00 UTC+8

本文介紹瞭如何使用Playwright、browser-use和LangGraph在Python中構建能瀏覽和操作真實網站的AI代理。文章涵蓋了Playwright相較於Selenium的優勢（持久WebSocket連線、內建瀏覽器二進位制、自動等待等）、環境搭建步驟、動態頁面抓取、多步驟表單填寫、反爬蟲處理、會話持久化以及Docker部署。透過實際程式碼示例，讀者將學會構建一個能導航網站、填寫表單、提取結構化資料並透過LLM決策的瀏覽器代理。

Playwright透過持久WebSocket連線實現比Selenium快30-50%的瀏覽器操作，並內建自動等待和真實滑鼠/鍵盤事件。
環境搭建僅需Python 3.10+、OpenAI API金鑰和幾個pip安裝命令，包括Playwright瀏覽器二進位制檔案。

LangSmith 無程式碼代理構建器正式釋出

2026-06-19 01:32 UTC+8

LangSmith 推出無程式碼代理構建器，讓非技術人員也能輕鬆建立具有記憶、引導式提示和 MCP 工具的 AI 代理。該構建器透過對話式引導、內建記憶和子代理功能，降低了代理開發的門檻，適用於內部生產力場景。

LangSmith 代理構建器提供無程式碼體驗，包含記憶和引導式提示建立。
代理由提示、工具、觸發器和子代理四個核心元件構成。

NAVI-Orbital：零樣本視覺語言模型首次在軌自主地球觀測演示

2026-06-18 12:00 UTC+8

本文介紹了NAVI-Orbital，一個部署在低地球軌道航天器上的軟體系統。2026年4月16日，它實現了首次在軌視覺語言模型自主多模態推理，使用Gemma 3模型對捕獲場景進行分類、描述，並透過自然語言對話響應操作員。該系統透過純英語提示重新任務，由基於圖的狀態機（LangGraph）協調。地面基準測試準確率88.16%，並在軌驗證了可行性，旨在透過語義壓縮反轉傳統頻寬模式。

首次在軌演示零樣本視覺語言模型進行自主多模態推理
使用Gemma 3和LangGraph實現自然語言任務重定向和對話

我如何（以及為何）構建了一個AI助手

2026-06-17 22:00 UTC+8

本文講述了作者為何選擇自建AI助手而非使用現有工具，詳細介紹了系統架構、技術棧選擇及實現過程，包括LLM、LangChain、記憶體管理和工具整合。

自建AI助手可提供更高控制力、資料隱私保護和定製化工作流。
技術棧包括GPT-4o、LangChain、SQLite持久化記憶體及DuckDuckGo搜尋等工具。

多代理大型語言模型系統中併發異常的驗證檢測與預防

2026-06-17 12:00 UTC+8

該研究針對多代理LLM系統共享狀態導致的併發異常，提出了形式化定義和驗證檢測方法。透過TLA+建模四種異常（陳舊生成、幻影工具、因果級聯、工具效應重排序），並構建了一個經機械驗證的一致性層級L0到L4。使用274個Verus驗證義務，證明了檢測器的正確性和完備性。在三個已部署的Rust執行時中實現了L0-L1級別，並對比了字節跳動deer-flow和LangGraph中的實際異常案例。

形式化定義了多代理LLM系統中的四種併發異常，並建模為TLA+規格
構建了首個經機器驗證的一致性層級L0-L4，使用274個Verus義務

Factory 如何利用 LangSmith 自動化反饋迴圈，將迭代速度提升 2 倍

2026-06-17 02:11 UTC+8

Factory AI 透過 LangSmith 的可觀測性和反饋 API 最佳化產品反饋迴圈，實現了迭代速度翻倍，並顯著縮短了開發週期。

Factory 將 LangSmith 與 AWS CloudWatch 整合，提升了可觀測性和除錯效率。
利用 LangSmith 的反饋 API，Factory 自動化了提示最佳化過程，減少了人工操作。

推出 Open SWE：一款開源非同步編碼代理

2026-06-17 02:08 UTC+8

Open SWE 是一款開源、雲端託管的編碼代理，能夠自主處理 GitHub 任務，包括規劃、編碼、測試和提交拉取請求。它採用多代理架構，包含規劃器、程式設計師和審查器，並支援人類參與迴圈和非同步執行。

Open SWE 是一款開源的非同步雲端編碼代理，可直接與 GitHub 整合。
它使用多代理架構（規劃器、程式設計師、審查器）來確保程式碼質量。

Monte Carlo：使用 LangGraph 和 LangSmith 構建資料 + AI 可觀測性代理

2026-06-17 02:08 UTC+8

Monte Carlo 利用 LangGraph 構建 AI 故障排除代理，並使用 LangSmith 進行除錯，幫助資料團隊更快地解決問題。該代理能夠並行探索多個調查路徑，顯著縮短根因分析時間。

Monte Carlo 採用 LangGraph 建立動態圖結構，實現故障排除流程的自動化與並行化。
LangSmith 從開發初期就用於視覺化和迭代提示工程，加速了代理的最佳化。

分享 LangSmith 基準測試

2026-06-17 02:07 UTC+8

LangSmith 推出公開基準測試和評估資料集共享功能，幫助開發者比較不同 LLM 架構在相同任務上的表現。首發資料集為 LangChain 文件問答資料集，併發布了 langchain-benchmarks 包以支援實驗。文章分析了多種模型和架構的效能，並提供了除錯方法。

LangSmith 現在支援共享評估資料集和結果，便於社群驅動的基準測試。
首發基準測試是 LangChain 文件問答資料集，測試 RAG 系統的綜合回答能力。

LangSmith：改版產品主頁與資源標籤，實現更好的組織管理

2026-06-17 02:07 UTC+8

LangSmith 產品主頁重新劃分為三大板塊：可觀測性、評估和提示工程。同時，資源標籤功能得到增強，支援按應用或自定義標籤靈活分組資源，未來還將引入基於屬性的訪問控制（ABAC）。

主頁分為可觀測性、評估和提示工程三個部分，每個部分包含相關功能。
資源標籤現在支援按“應用”或其他自定義標籤進行靈活過濾和組織。

智慧體工程：一門新興學科

2026-06-17 02:06 UTC+8

智慧體工程是一門結合產品思維、工程和資料科學的新學科，旨在透過迭代構建、測試、釋出、觀察和最佳化的迴圈，將非確定性的LLM系統轉變為可靠的工業生產體驗。文章介紹了該學科的核心概念、所需技能、實踐場景以及為什麼現在需要它。

智慧體工程是迭代過程：構建、測試、釋出、觀察、最佳化、重複。
結合產品思維（定義範圍與行為）、工程（構建基礎設施）、資料科學（測量與改進）。

在LangSmith中測試微調的開源模型

2026-06-17 02:06 UTC+8

本文介紹瞭如何使用LangSmith評估和比較微調後的開源LLM。作者透過微調Llama2-7b和13b模型來生成SQL，並在LangSmith上建立資料集、執行測試、用GPT-4自動評估。結果顯示，13b模型在使用較少資料時仍接近GPT-3.5水平，證明了開源模型的競爭力。

LangSmith提供UI和API來建立評估資料集，方便測試多個模型。
微調了Llama2-7b（78k行）和Llama2-13b（10k行）用於SQL生成。

智慧體改進迴圈中的人類判斷

2026-06-17 02:04 UTC+8

AI智慧體在反映團隊積累的知識和判斷時效果最佳。本文探討如何將人類判斷融入智慧體開發的生命週期，以交易員助手為例，講解工作流設計、工具設計和上下文工程，並介紹透過自動化評估和監測來最佳化智慧體的改進迴圈。

智慧體需要吸收領域專家的隱性知識
透過工作流設計、工具設計和上下文工程融入人類判斷

深度代理的上下文管理

2026-06-17 02:04 UTC+8

Deep Agents SDK透過解除安裝、摘要和檔案系統抽象來管理長時間執行AI任務的上下文，防止上下文腐敗。本文介紹了三種壓縮技術：解除安裝大型工具結果、解除安裝大型工具輸入和摘要，並提供了實踐指導和評估方法。

Deep Agents SDK採用上下文壓縮技術管理AI代理的有限記憶，包括解除安裝和摘要。
三種壓縮技術在上下文視窗不同閾值觸發：解除安裝大型結果（>20K令牌）、解除安裝大型輸入（>85%）、摘要（>85%且無可解除安裝內容）。

迴圈工程的藝術

2026-06-17 00:59 UTC+8

本文探討了構建可靠AI代理的核心在於精心設計的迴圈架構，而不僅僅是模型本身。作者介紹了四種巢狀迴圈：代理迴圈、驗證迴圈、事件驅動迴圈和爬山迴圈，並展示瞭如何使用LangChain原語實現每層迴圈。文章強調，透過將代理嵌入生態系統並持續改進，可以構建難以複製的競爭優勢。

代理迴圈讓模型反覆呼叫工具完成任務，是基礎迴圈。
驗證迴圈透過評分與反饋確保輸出質量。

為什麼Fleet同時擁有通用聊天和專業Agent

2026-06-16 23:50 UTC+8

Fleet將Agent工作分為臨時任務和重複任務兩種模式，分別由通用聊天和專業Agent處理。通用聊天適合低配置的臨時需求，而專業Agent透過持久指令、工具、子Agent和記憶等配置來處理重複性工作。本文詳細介紹了兩種Agent型別的設計理念、適用場景及配置差異。

臨時任務適合用通用聊天，無需預先配置。
重複任務應使用專業Agent，支援自定義指令、工具和記憶。

記住，不要重讀：面向令牌高效自主實驗的有狀態ReAct智慧體

2026-06-16 12:00 UTC+8

該研究將自主實驗模式重構為基於LangGraph的有狀態ReAct智慧體，透過持久化狀態避免每次迭代重建上下文，在超引數調優和程式碼最佳化任務中分別減少90%和52%的令牌消耗，同時保持最佳化質量。

傳統的無狀態自主實驗每次迭代都會重建完整上下文，導致O(n²)的總令牌成本。
提出的有狀態ReAct智慧體使用LangGraph的持久化狀態和工具呼叫介面，將每次迭代成本降至O(1)。

來源分布

主題分布

日期線

最新動態

AI代理架構教育實驗室

OpenWiki Brains：AI代理的主動記憶框架

使用Perplexity Agent API、LangGraph和LangSmith構建可審計的風險投資研究代理

LLM編排框架對比：LangChain vs. LlamaIndex vs. 原始API呼叫

LangChain與NVIDIA聯合釋出NemoClaw深度代理藍圖

調校框架而非模型：Nemotron 3 Ultra實踐指南

NVIDIA Nemotron 藉助 LangChain 深度代理框架實現基準領先效能

在NVIDIA NemoClaw上執行Deep Agents Code：為最敏感程式碼設計的治理藍圖

brAIn：基於NATS匯流排的反應式AI代理節點，而非聊天迴圈

[AINews] Lilian Weng總結35篇關於RSI的套件工程論文

改進智慧體是一個資料探勘問題

施耐德電氣如何利用LangSmith構建企業級LLMOps基礎

Deep Agents：一款“開箱即用”的智慧體框架

我們執行了一個複雜任務——使用Claude Fable模型分析LangChain倉庫

你的程式設計代理賬單翻倍了。以下是如何解決。

2026年你應該瞭解的10個人工智慧代理框架

OpenWiki：為程式設計代理提供開源倉庫文件

如何在Deep Agents中使用遞迴語言模型

Pendo如何利用LangSmith追蹤Novus：從使用者行為到程式碼修復

Harbor x LangChain：評估代理的統一堆疊

維基記憶

智慧體AI管道用於裝置級能源異常檢測與LLM驅動的建議

基準測試智慧體工具使用能力

提取基準測試：比較GPT-4、Claude和開源LLM在從聊天日誌中提取結構化資料的能力

在Deep Agents中引入動態子代理

如何利用LangSmith構建Candidly的狀態感知智慧體引擎

我從我的AI代理棧中移除了向量資料庫

深度代理的提示快取

2026年6月：LangChain通訊——Fleet值班副駕駛、Deep Agents評分標準等

最佳AI代理為何簡單：Sierra的Zack Reneau-Wedeen在Max Agency播客上的見解

Klarna的AI助手如何重新定義大規模客戶支援，服務8500萬活躍使用者

LangSmith和LangChain OSS如何幫助您滿足歐盟AI法案要求

如何為AI Agent構建記憶系統

用Python構建能使用瀏覽器的AI代理

LangSmith 無程式碼代理構建器正式釋出

NAVI-Orbital：零樣本視覺語言模型首次在軌自主地球觀測演示

我如何（以及為何）構建了一個AI助手

多代理大型語言模型系統中併發異常的驗證檢測與預防

Factory 如何利用 LangSmith 自動化反饋迴圈，將迭代速度提升 2 倍

推出 Open SWE：一款開源非同步編碼代理

Monte Carlo：使用 LangGraph 和 LangSmith 構建資料 + AI 可觀測性代理

分享 LangSmith 基準測試

LangSmith：改版產品主頁與資源標籤，實現更好的組織管理

智慧體工程：一門新興學科

在LangSmith中測試微調的開源模型

智慧體改進迴圈中的人類判斷

深度代理的上下文管理

迴圈工程的藝術

為什麼Fleet同時擁有通用聊天和專業Agent

記住，不要重讀：面向令牌高效自主實驗的有狀態ReAct智慧體

公司導航

OpenAI

Anthropic

DeepSeek

Google

Meta

Microsoft

NVIDIA

Mistral

Hugging Face

LangChain