2026-06-08站内改写2 分鐘閱讀更新: 2026-06-08

開源社群支援OpenEnv用於智慧體強化學習

OpenEnv是一個用於建立智慧體執行環境（如終端、瀏覽器等）的開源工具。今天，我們宣佈OpenEnv將變得更加開放，由一個包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在內的委員會協調。該專案旨在為開放原始碼的智慧體訓練提供通用基礎設施，並專注於作為互操作性層，而不是定義獎勵或訓練迴圈。

來源Hugging Face Blog

開源社群正在全力支援OpenEnv，這是一個用於建立智慧體執行環境（如終端、瀏覽器或任何智慧體可以互動的環境）的工具。今天，我們激動地宣佈OpenEnv將變得更加開放，以推動智慧體訓練的開源未來。

從今天起，OpenEnv將由一個委員會協調，該委員會目前包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face。OpenEnv現在位於huggingface/OpenEnv。該專案得到了AI生態系統中領先組織的廣泛支援和採用，包括PyTorch Foundation、vLLM、SkyRL (UCB)、Lightning AI、Axolotl AI、Stanford Scaling Intelligence Lab、Mithril、OpenMined、Scaler AI Labs、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard和Snorkel AI。

為什麼我們需要OpenEnv來訓練開源智慧體？智慧體框架如Claude Code、Codex、OpenClaw和Hermes在不斷進步。部分原因是像GPT-5.5和Opus 4.8這樣的模型經過訓練以使用各自的框架。我們也希望開源模型能獲得同樣的進步：訓練本地模型有效使用框架，並透過專門化特定任務來節省計算資源。

為什麼需要更加開放？前沿實驗室訓練的模型和框架通常是緊密配合的。模型經過訓練以使用框架並針對其特性進行最佳化。模型可以在一定程度上泛化到其他框架，但沒有什麼比訓練的效率更高。在開源領域，情況並非如此。開發者使用任何框架、任何模型、任何推理引擎，無論他們重視什麼用例。這對社群至關重要，但也帶來了需要基礎設施和工具來應對的挑戰。OpenEnv就是為了解決這個問題而誕生的。它是一個在框架、環境和訓練器之間進行介面的庫，適用於任何模型。為了使其持續發展，它需要由所有主要利益相關者共同擁有。

協議層，而非獎勵框架。隨著治理結構的改變，我們也明確了OpenEnv的定位。在最近的版本中，OpenEnv已成為強化學習環境的互操作性層。其工作是標準化環境的釋出、部署和智慧體使用方式。它不會規定如何定義獎勵或訓練迴圈如何工作。獎勵定義、評分規則和訓練器特定邏輯應屬於專門處理它們的庫。OpenEnv是一個它們都可以插入的公共介面。實際上，這意味著：一個介面，多個環境，所有環境都暴露熟悉的Gymnasium風格API（reset()、step()、state()），並執行在客戶端/伺服器架構上。支援OpenEnv的訓練器可以驅動任何相容的環境，而無需定製程式碼。熟悉的協議和規範的打包方式。環境透過HTTP和WebSocket等標準協議提供服務，並使用Docker打包。MCP是核心支援，因此OpenEnv環境與MCP伺服器即時相容，並且同一環境在模擬（訓練/評估）和生產模式下行為一致。跨環境庫的互操作性。您可以在不同的生態系統（如verifiers、harbor等）中定義和使用環境，並在您選擇的基礎設施和中心上使用。OpenEnv是它們底層的部署和介面層，而不是它們的競爭對手。

接下來做什麼？在接下來的幾個月裡，我們將專注於將OpenEnv從一個快速增長的專案轉變為一個可靠的標準化工具：透過資料集連線任務集，將環境任務與Hugging Face資料集關聯；外部獎勵，允許獎勵在您已經使用的任何庫中定義，OpenEnv作為部署層；持續整合智慧體框架；端到端示例，在TRL、Unsloth及其他框架中提供完整的訓練和評估流程；自動驗證，衡量環境質量和其對模型學習的貢獻。

如何參與？OpenEnv的設計以社群為中心，目前還處於早期階段，可能存在不完善之處，歡迎幫助改進。檢視程式碼和RFC：github.com/huggingface/OpenEnv。感謝所有幫助實現這一轉變的人。讓我們一起構建開源智慧體強化學習的共同基礎。