2026-06-30 23:22 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 23:30 UTC+8

Harbor x LangChain：評估代理的統一堆疊

Harbor是一個評估長期執行、有狀態代理的新工具，與LangChain的Deep Agents、LangSmith沙箱和可觀測性整合，實現了可擴充套件的隔離評估。本文介紹了Harbor的工作原理及如何透過LangGraph登錄檔和外掛整合。

來源LangChain Blog

隨著人工智慧代理的能力不斷提升，評估這些長期執行、有狀態代理的難度也在急劇增加。像Claude Code、Pi和Deep Agents這樣的現代代理框架，已經賦予了代理訪問整個計算機的能力——它們可以讀取檔案、執行指令碼、執行程式碼，甚至修改系統狀態。因此，每個代理任務都需要在獨立、乾淨、可重現的環境中執行，而傳統的簡單LLM評估方式顯然無法滿足這一需求。

Harbor應運而生，作為一種專為長期執行、有狀態代理設計的評估工具，它迅速成為該領域的領導者。Harbor的工作原理非常清晰：使用者需要提供三個核心要素——代理本身、一個任務資料集和一個沙箱環境。每個資料集包含多個任務，每個任務又由三部分組成：環境描述（透過Dockerfile或Docker Compose定義）、任務指令（使用Markdown編寫）以及評估指令碼（通常是一個test.sh檔案）。與簡單的LLM評估相比，代理評估有兩個顯著不同：一是執行環境至關重要，必須作為任務的一部分明確指定；二是代理的評估不再僅看最終輸出，而是透過指令碼檢查它產生的所有工件（如建立的檔案、修改的狀態等）。

LangChain現在透過三個關鍵點與Harbor深度整合，為開發者提供了統一的評估堆疊。首先，Deep Agents——任何使用LangChain構建的深度代理——都可以直接在Harbor的沙箱環境中執行，無需額外適配。其次，LangSmith沙箱為Harbor的每個任務提供一個獨立的、乾淨的機器環境，這意味著你可以水平擴充套件評估，並行執行數百個任務，而無需擔心狀態汙染。最後，LangSmith可觀測性平臺將所有評估作業捕獲為資料集和實驗，並將代理的完整軌跡作為反饋附加到評分結果上。這樣，開發者不僅能知道某個試驗是透過還是失敗，還能深入理解背後的原因。

要將自定義代理接入Harbor，最簡單的方式是使用Harbor內建的langgraph代理，透過命令列引數--agent langgraph來指定。LangGraph應用（包括Deep Agents）透過一個名為langgraph.json的登錄檔來配置依賴關係，並將不同的圖名稱對映到對應的構建函式。例如，在langgraph.json中，你可以宣告依賴項，並定義如何構建深度代理的圖。然後，透過一條命令列指令，你就可以指定模型（如fireworks上的glm-5p2）、資料集（如[email protected]）、沙箱型別（如LangSmith雲環境）以及外掛（如langsmith）。這個統一入口讓代理評估變得前所未有的簡單和可擴充套件。

總的來說，Harbor與LangChain的整合解決了代理評估的核心難題：提供一個可重現、隔離、並行的執行環境，同時透過可觀測性確保評估結果的可解釋性。無論你是在開發複雜的Deep Agents，還是執行大規模的基準測試，這一統一堆疊都能讓你更高效、更自信地評估你的代理。要開始使用，請參考Harbor的整合文件和執行指南。