AI News HubLIVE
站內改寫2 分鐘閱讀

Harbor x LangChain:評估代理的統一堆疊

Harbor是一個評估長期執行、有狀態代理的新工具,與LangChain的Deep Agents、LangSmith沙箱和可觀測性整合,實現了可擴充套件的隔離評估。本文介紹了Harbor的工作原理及如何透過LangGraph登錄檔和外掛整合。

隨著人工智慧代理的能力不斷提升,評估這些長期執行、有狀態代理的難度也在急劇增加。像Claude Code、Pi和Deep Agents這樣的現代代理框架,已經賦予了代理訪問整個計算機的能力——它們可以讀取檔案、執行指令碼、執行程式碼,甚至修改系統狀態。因此,每個代理任務都需要在獨立、乾淨、可重現的環境中執行,而傳統的簡單LLM評估方式顯然無法滿足這一需求。

Harbor應運而生,作為一種專為長期執行、有狀態代理設計的評估工具,它迅速成為該領域的領導者。Harbor的工作原理非常清晰:使用者需要提供三個核心要素——代理本身、一個任務資料集和一個沙箱環境。每個資料集包含多個任務,每個任務又由三部分組成:環境描述(透過Dockerfile或Docker Compose定義)、任務指令(使用Markdown編寫)以及評估指令碼(通常是一個test.sh檔案)。與簡單的LLM評估相比,代理評估有兩個顯著不同:一是執行環境至關重要,必須作為任務的一部分明確指定;二是代理的評估不再僅看最終輸出,而是透過指令碼檢查它產生的所有工件(如建立的檔案、修改的狀態等)。

LangChain現在透過三個關鍵點與Harbor深度整合,為開發者提供了統一的評估堆疊。首先,Deep Agents——任何使用LangChain構建的深度代理——都可以直接在Harbor的沙箱環境中執行,無需額外適配。其次,LangSmith沙箱為Harbor的每個任務提供一個獨立的、乾淨的機器環境,這意味著你可以水平擴充套件評估,並行執行數百個任務,而無需擔心狀態汙染。最後,LangSmith可觀測性平臺將所有評估作業捕獲為資料集和實驗,並將代理的完整軌跡作為反饋附加到評分結果上。這樣,開發者不僅能知道某個試驗是透過還是失敗,還能深入理解背後的原因。

要將自定義代理接入Harbor,最簡單的方式是使用Harbor內建的langgraph代理,透過命令列引數--agent langgraph來指定。LangGraph應用(包括Deep Agents)透過一個名為langgraph.json的登錄檔來配置依賴關係,並將不同的圖名稱對映到對應的構建函式。例如,在langgraph.json中,你可以宣告依賴項,並定義如何構建深度代理的圖。然後,透過一條命令列指令,你就可以指定模型(如fireworks上的glm-5p2)、資料集(如[email protected])、沙箱型別(如LangSmith雲環境)以及外掛(如langsmith)。這個統一入口讓代理評估變得前所未有的簡單和可擴充套件。

總的來說,Harbor與LangChain的整合解決了代理評估的核心難題:提供一個可重現、隔離、並行的執行環境,同時透過可觀測性確保評估結果的可解釋性。無論你是在開發複雜的Deep Agents,還是執行大規模的基準測試,這一統一堆疊都能讓你更高效、更自信地評估你的代理。要開始使用,請參考Harbor的整合文件和執行指南。