開源社群支援OpenEnv用於智慧體強化學習
OpenEnv是一個用於建立智慧體執行環境(如終端、瀏覽器等)的開源工具。今天,我們宣佈OpenEnv將變得更加開放,由一個包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在內的委員會協調。該專案旨在為開放原始碼的智慧體訓練提供通用基礎設施,並專注於作為互操作性層,而不是定義獎勵或訓練迴圈。
開源社群正在全力支援OpenEnv,這是一個用於建立智慧體執行環境(如終端、瀏覽器或任何智慧體可以互動的環境)的工具。今天,我們激動地宣佈OpenEnv將變得更加開放,以推動智慧體訓練的開源未來。
從今天起,OpenEnv將由一個委員會協調,該委員會目前包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face。OpenEnv現在位於huggingface/OpenEnv。該專案得到了AI生態系統中領先組織的廣泛支援和採用,包括PyTorch Foundation、vLLM、SkyRL (UCB)、Lightning AI、Axolotl AI、Stanford Scaling Intelligence Lab、Mithril、OpenMined、Scaler AI Labs、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard和Snorkel AI。
為什麼我們需要OpenEnv來訓練開源智慧體?智慧體框架如Claude Code、Codex、OpenClaw和Hermes在不斷進步。部分原因是像GPT-5.5和Opus 4.8這樣的模型經過訓練以使用各自的框架。我們也希望開源模型能獲得同樣的進步:訓練本地模型有效使用框架,並透過專門化特定任務來節省計算資源。
為什麼需要更加開放?前沿實驗室訓練的模型和框架通常是緊密配合的。模型經過訓練以使用框架並針對其特性進行最佳化。模型可以在一定程度上泛化到其他框架,但沒有什麼比訓練的效率更高。在開源領域,情況並非如此。開發者使用任何框架、任何模型、任何推理引擎,無論他們重視什麼用例。這對社群至關重要,但也帶來了需要基礎設施和工具來應對的挑戰。OpenEnv就是為了解決這個問題而誕生的。它是一個在框架、環境和訓練器之間進行介面的庫,適用於任何模型。為了使其持續發展,它需要由所有主要利益相關者共同擁有。
協議層,而非獎勵框架。隨著治理結構的改變,我們也明確了OpenEnv的定位。在最近的版本中,OpenEnv已成為強化學習環境的互操作性層。其工作是標準化環境的釋出、部署和智慧體使用方式。它不會規定如何定義獎勵或訓練迴圈如何工作。獎勵定義、評分規則和訓練器特定邏輯應屬於專門處理它們的庫。OpenEnv是一個它們都可以插入的公共介面。實際上,這意味著:一個介面,多個環境,所有環境都暴露熟悉的Gymnasium風格API(reset()、step()、state()),並執行在客戶端/伺服器架構上。支援OpenEnv的訓練器可以驅動任何相容的環境,而無需定製程式碼。熟悉的協議和規範的打包方式。環境透過HTTP和WebSocket等標準協議提供服務,並使用Docker打包。MCP是核心支援,因此OpenEnv環境與MCP伺服器即時相容,並且同一環境在模擬(訓練/評估)和生產模式下行為一致。跨環境庫的互操作性。您可以在不同的生態系統(如verifiers、harbor等)中定義和使用環境,並在您選擇的基礎設施和中心上使用。OpenEnv是它們底層的部署和介面層,而不是它們的競爭對手。
接下來做什麼?在接下來的幾個月裡,我們將專注於將OpenEnv從一個快速增長的專案轉變為一個可靠的標準化工具:透過資料集連線任務集,將環境任務與Hugging Face資料集關聯;外部獎勵,允許獎勵在您已經使用的任何庫中定義,OpenEnv作為部署層;持續整合智慧體框架;端到端示例,在TRL、Unsloth及其他框架中提供完整的訓練和評估流程;自動驗證,衡量環境質量和其對模型學習的貢獻。
如何參與?OpenEnv的設計以社群為中心,目前還處於早期階段,可能存在不完善之處,歡迎幫助改進。檢視程式碼和RFC:github.com/huggingface/OpenEnv。感謝所有幫助實現這一轉變的人。讓我們一起構建開源智慧體強化學習的共同基礎。