AI News HubLIVE
站内改写2 分钟阅读

开源社区支持OpenEnv用于智能体强化学习

OpenEnv是一个用于创建智能体执行环境(如终端、浏览器等)的开源工具。今天,我们宣布OpenEnv将变得更加开放,由一个包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在内的委员会协调。该项目旨在为开放源代码的智能体训练提供通用基础设施,并专注于作为互操作性层,而不是定义奖励或训练循环。

开源社区正在全力支持OpenEnv,这是一个用于创建智能体执行环境(如终端、浏览器或任何智能体可以交互的环境)的工具。今天,我们激动地宣布OpenEnv将变得更加开放,以推动智能体训练的开源未来。

从今天起,OpenEnv将由一个委员会协调,该委员会目前包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face。OpenEnv现在位于huggingface/OpenEnv。该项目得到了AI生态系统中领先组织的广泛支持和采用,包括PyTorch Foundation、vLLM、SkyRL (UCB)、Lightning AI、Axolotl AI、Stanford Scaling Intelligence Lab、Mithril、OpenMined、Scaler AI Labs、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard和Snorkel AI。

为什么我们需要OpenEnv来训练开源智能体?智能体框架如Claude Code、Codex、OpenClaw和Hermes在不断进步。部分原因是像GPT-5.5和Opus 4.8这样的模型经过训练以使用各自的框架。我们也希望开源模型能获得同样的进步:训练本地模型有效使用框架,并通过专门化特定任务来节省计算资源。

为什么需要更加开放?前沿实验室训练的模型和框架通常是紧密配合的。模型经过训练以使用框架并针对其特性进行优化。模型可以在一定程度上泛化到其他框架,但没有什么比训练的效率更高。在开源领域,情况并非如此。开发者使用任何框架、任何模型、任何推理引擎,无论他们重视什么用例。这对社区至关重要,但也带来了需要基础设施和工具来应对的挑战。OpenEnv就是为了解决这个问题而诞生的。它是一个在框架、环境和训练器之间进行接口的库,适用于任何模型。为了使其持续发展,它需要由所有主要利益相关者共同拥有。

协议层,而非奖励框架。随着治理结构的改变,我们也明确了OpenEnv的定位。在最近的版本中,OpenEnv已成为强化学习环境的互操作性层。其工作是标准化环境的发布、部署和智能体使用方式。它不会规定如何定义奖励或训练循环如何工作。奖励定义、评分规则和训练器特定逻辑应属于专门处理它们的库。OpenEnv是一个它们都可以插入的公共接口。实际上,这意味着:一个接口,多个环境,所有环境都暴露熟悉的Gymnasium风格API(reset()、step()、state()),并运行在客户端/服务器架构上。支持OpenEnv的训练器可以驱动任何兼容的环境,而无需定制代码。熟悉的协议和规范的打包方式。环境通过HTTP和WebSocket等标准协议提供服务,并使用Docker打包。MCP是核心支持,因此OpenEnv环境与MCP服务器即时兼容,并且同一环境在模拟(训练/评估)和生产模式下行为一致。跨环境库的互操作性。您可以在不同的生态系统(如verifiers、harbor等)中定义和使用环境,并在您选择的基础设施和中心上使用。OpenEnv是它们底层的部署和接口层,而不是它们的竞争对手。

接下来做什么?在接下来的几个月里,我们将专注于将OpenEnv从一个快速增长的项目转变为一个可靠的标准化工具:通过数据集连接任务集,将环境任务与Hugging Face数据集关联;外部奖励,允许奖励在您已经使用的任何库中定义,OpenEnv作为部署层;持续集成智能体框架;端到端示例,在TRL、Unsloth及其他框架中提供完整的训练和评估流程;自动验证,衡量环境质量和其对模型学习的贡献。

如何参与?OpenEnv的设计以社区为中心,目前还处于早期阶段,可能存在不完善之处,欢迎帮助改进。查看代码和RFC:github.com/huggingface/OpenEnv。感谢所有帮助实现这一转变的人。让我们一起构建开源智能体强化学习的共同基础。