2026-06-08站内改写2 分鐘閱讀更新: 2026-06-08

開源社區支持OpenEnv用於智能體強化學習

OpenEnv是一個用於創建智能體執行環境（如終端、瀏覽器等）的開源工具。今天，我們宣佈OpenEnv將變得更加開放，由一個包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在內的委員會協調。該項目旨在為開放源代碼的智能體訓練提供通用基礎設施，並專注於作為互操作性層，而不是定義獎勵或訓練循環。

來源Hugging Face Blog

開源社區正在全力支持OpenEnv，這是一個用於創建智能體執行環境（如終端、瀏覽器或任何智能體可以交互的環境）的工具。今天，我們激動地宣佈OpenEnv將變得更加開放，以推動智能體訓練的開源未來。

從今天起，OpenEnv將由一個委員會協調，該委員會目前包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face。OpenEnv現在位於huggingface/OpenEnv。該項目得到了AI生態系統中領先組織的廣泛支持和採用，包括PyTorch Foundation、vLLM、SkyRL (UCB)、Lightning AI、Axolotl AI、Stanford Scaling Intelligence Lab、Mithril、OpenMined、Scaler AI Labs、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard和Snorkel AI。

為什麼我們需要OpenEnv來訓練開源智能體？智能體框架如Claude Code、Codex、OpenClaw和Hermes在不斷進步。部分原因是像GPT-5.5和Opus 4.8這樣的模型經過訓練以使用各自的框架。我們也希望開源模型能獲得同樣的進步：訓練本地模型有效使用框架，並通過專門化特定任務來節省計算資源。

為什麼需要更加開放？前沿實驗室訓練的模型和框架通常是緊密配合的。模型經過訓練以使用框架並針對其特性進行優化。模型可以在一定程度上泛化到其他框架，但沒有什麼比訓練的效率更高。在開源領域，情況並非如此。開發者使用任何框架、任何模型、任何推理引擎，無論他們重視什麼用例。這對社區至關重要，但也帶來了需要基礎設施和工具來應對的挑戰。OpenEnv就是為了解決這個問題而誕生的。它是一個在框架、環境和訓練器之間進行接口的庫，適用於任何模型。為了使其持續發展，它需要由所有主要利益相關者共同擁有。

協議層，而非獎勵框架。隨着治理結構的改變，我們也明確了OpenEnv的定位。在最近的版本中，OpenEnv已成為強化學習環境的互操作性層。其工作是標準化環境的發佈、部署和智能體使用方式。它不會規定如何定義獎勵或訓練循環如何工作。獎勵定義、評分規則和訓練器特定邏輯應屬於專門處理它們的庫。OpenEnv是一個它們都可以插入的公共接口。實際上，這意味着：一個接口，多個環境，所有環境都暴露熟悉的Gymnasium風格API（reset()、step()、state()），並運行在客户端/服務器架構上。支持OpenEnv的訓練器可以驅動任何兼容的環境，而無需定製代碼。熟悉的協議和規範的打包方式。環境通過HTTP和WebSocket等標準協議提供服務，並使用Docker打包。MCP是核心支持，因此OpenEnv環境與MCP服務器即時兼容，並且同一環境在模擬（訓練/評估）和生產模式下行為一致。跨環境庫的互操作性。您可以在不同的生態系統（如verifiers、harbor等）中定義和使用環境，並在您選擇的基礎設施和中心上使用。OpenEnv是它們底層的部署和接口層，而不是它們的競爭對手。

接下來做什麼？在接下來的幾個月裏，我們將專注於將OpenEnv從一個快速增長的項目轉變為一個可靠的標準化工具：通過數據集連接任務集，將環境任務與Hugging Face數據集關聯；外部獎勵，允許獎勵在您已經使用的任何庫中定義，OpenEnv作為部署層；持續集成智能體框架；端到端示例，在TRL、Unsloth及其他框架中提供完整的訓練和評估流程；自動驗證，衡量環境質量和其對模型學習的貢獻。

如何參與？OpenEnv的設計以社區為中心，目前還處於早期階段，可能存在不完善之處，歡迎幫助改進。查看代碼和RFC：github.com/huggingface/OpenEnv。感謝所有幫助實現這一轉變的人。讓我們一起構建開源智能體強化學習的共同基礎。