2026-06-30 23:22 UTC+8站内改写2 分钟阅读更新: 2026-06-30 23:30 UTC+8

Harbor x LangChain：评估代理的统一堆栈

Harbor是一个评估长期运行、有状态代理的新工具，与LangChain的Deep Agents、LangSmith沙箱和可观测性集成，实现了可扩展的隔离评估。本文介绍了Harbor的工作原理及如何通过LangGraph注册表和插件集成。

随着人工智能代理的能力不断提升，评估这些长期运行、有状态代理的难度也在急剧增加。像Claude Code、Pi和Deep Agents这样的现代代理框架，已经赋予了代理访问整个计算机的能力——它们可以读取文件、执行脚本、运行代码，甚至修改系统状态。因此，每个代理任务都需要在独立、干净、可重现的环境中运行，而传统的简单LLM评估方式显然无法满足这一需求。

Harbor应运而生，作为一种专为长期运行、有状态代理设计的评估工具，它迅速成为该领域的领导者。Harbor的工作原理非常清晰：用户需要提供三个核心要素——代理本身、一个任务数据集和一个沙箱环境。每个数据集包含多个任务，每个任务又由三部分组成：环境描述（通过Dockerfile或Docker Compose定义）、任务指令（使用Markdown编写）以及评估脚本（通常是一个test.sh文件）。与简单的LLM评估相比，代理评估有两个显著不同：一是运行环境至关重要，必须作为任务的一部分明确指定；二是代理的评估不再仅看最终输出，而是通过脚本检查它产生的所有工件（如创建的文件、修改的状态等）。

LangChain现在通过三个关键点与Harbor深度集成，为开发者提供了统一的评估堆栈。首先，Deep Agents——任何使用LangChain构建的深度代理——都可以直接在Harbor的沙箱环境中运行，无需额外适配。其次，LangSmith沙箱为Harbor的每个任务提供一个独立的、干净的机器环境，这意味着你可以水平扩展评估，并行运行数百个任务，而无需担心状态污染。最后，LangSmith可观测性平台将所有评估作业捕获为数据集和实验，并将代理的完整轨迹作为反馈附加到评分结果上。这样，开发者不仅能知道某个试验是通过还是失败，还能深入理解背后的原因。

要将自定义代理接入Harbor，最简单的方式是使用Harbor内置的langgraph代理，通过命令行参数--agent langgraph来指定。LangGraph应用（包括Deep Agents）通过一个名为langgraph.json的注册表来配置依赖关系，并将不同的图名称映射到对应的构建函数。例如，在langgraph.json中，你可以声明依赖项，并定义如何构建深度代理的图。然后，通过一条命令行指令，你就可以指定模型（如fireworks上的glm-5p2）、数据集（如[email protected]）、沙箱类型（如LangSmith云环境）以及插件（如langsmith）。这个统一入口让代理评估变得前所未有的简单和可扩展。

总的来说，Harbor与LangChain的集成解决了代理评估的核心难题：提供一个可重现、隔离、并行的执行环境，同时通过可观测性确保评估结果的可解释性。无论你是在开发复杂的Deep Agents，还是运行大规模的基准测试，这一统一堆栈都能让你更高效、更自信地评估你的代理。要开始使用，请参考Harbor的集成文档和运行指南。