2026-06-08站内改写2 分钟阅读更新: 2026-06-08

开源社区支持OpenEnv用于智能体强化学习

OpenEnv是一个用于创建智能体执行环境（如终端、浏览器等）的开源工具。今天，我们宣布OpenEnv将变得更加开放，由一个包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在内的委员会协调。该项目旨在为开放源代码的智能体训练提供通用基础设施，并专注于作为互操作性层，而不是定义奖励或训练循环。

来源Hugging Face Blog

开源社区正在全力支持OpenEnv，这是一个用于创建智能体执行环境（如终端、浏览器或任何智能体可以交互的环境）的工具。今天，我们激动地宣布OpenEnv将变得更加开放，以推动智能体训练的开源未来。

从今天起，OpenEnv将由一个委员会协调，该委员会目前包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face。OpenEnv现在位于huggingface/OpenEnv。该项目得到了AI生态系统中领先组织的广泛支持和采用，包括PyTorch Foundation、vLLM、SkyRL (UCB)、Lightning AI、Axolotl AI、Stanford Scaling Intelligence Lab、Mithril、OpenMined、Scaler AI Labs、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard和Snorkel AI。

为什么我们需要OpenEnv来训练开源智能体？智能体框架如Claude Code、Codex、OpenClaw和Hermes在不断进步。部分原因是像GPT-5.5和Opus 4.8这样的模型经过训练以使用各自的框架。我们也希望开源模型能获得同样的进步：训练本地模型有效使用框架，并通过专门化特定任务来节省计算资源。

为什么需要更加开放？前沿实验室训练的模型和框架通常是紧密配合的。模型经过训练以使用框架并针对其特性进行优化。模型可以在一定程度上泛化到其他框架，但没有什么比训练的效率更高。在开源领域，情况并非如此。开发者使用任何框架、任何模型、任何推理引擎，无论他们重视什么用例。这对社区至关重要，但也带来了需要基础设施和工具来应对的挑战。OpenEnv就是为了解决这个问题而诞生的。它是一个在框架、环境和训练器之间进行接口的库，适用于任何模型。为了使其持续发展，它需要由所有主要利益相关者共同拥有。

协议层，而非奖励框架。随着治理结构的改变，我们也明确了OpenEnv的定位。在最近的版本中，OpenEnv已成为强化学习环境的互操作性层。其工作是标准化环境的发布、部署和智能体使用方式。它不会规定如何定义奖励或训练循环如何工作。奖励定义、评分规则和训练器特定逻辑应属于专门处理它们的库。OpenEnv是一个它们都可以插入的公共接口。实际上，这意味着：一个接口，多个环境，所有环境都暴露熟悉的Gymnasium风格API（reset()、step()、state()），并运行在客户端/服务器架构上。支持OpenEnv的训练器可以驱动任何兼容的环境，而无需定制代码。熟悉的协议和规范的打包方式。环境通过HTTP和WebSocket等标准协议提供服务，并使用Docker打包。MCP是核心支持，因此OpenEnv环境与MCP服务器即时兼容，并且同一环境在模拟（训练/评估）和生产模式下行为一致。跨环境库的互操作性。您可以在不同的生态系统（如verifiers、harbor等）中定义和使用环境，并在您选择的基础设施和中心上使用。OpenEnv是它们底层的部署和接口层，而不是它们的竞争对手。

接下来做什么？在接下来的几个月里，我们将专注于将OpenEnv从一个快速增长的项目转变为一个可靠的标准化工具：通过数据集连接任务集，将环境任务与Hugging Face数据集关联；外部奖励，允许奖励在您已经使用的任何库中定义，OpenEnv作为部署层；持续集成智能体框架；端到端示例，在TRL、Unsloth及其他框架中提供完整的训练和评估流程；自动验证，衡量环境质量和其对模型学习的贡献。

如何参与？OpenEnv的设计以社区为中心，目前还处于早期阶段，可能存在不完善之处，欢迎帮助改进。查看代码和RFC：github.com/huggingface/OpenEnv。感谢所有帮助实现这一转变的人。让我们一起构建开源智能体强化学习的共同基础。