AI News HubLIVE
站内改写2 分鐘閱讀

開源社區支持OpenEnv用於智能體強化學習

OpenEnv是一個用於創建智能體執行環境(如終端、瀏覽器等)的開源工具。今天,我們宣佈OpenEnv將變得更加開放,由一個包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face在內的委員會協調。該項目旨在為開放源代碼的智能體訓練提供通用基礎設施,並專注於作為互操作性層,而不是定義獎勵或訓練循環。

開源社區正在全力支持OpenEnv,這是一個用於創建智能體執行環境(如終端、瀏覽器或任何智能體可以交互的環境)的工具。今天,我們激動地宣佈OpenEnv將變得更加開放,以推動智能體訓練的開源未來。

從今天起,OpenEnv將由一個委員會協調,該委員會目前包括Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI和Hugging Face。OpenEnv現在位於huggingface/OpenEnv。該項目得到了AI生態系統中領先組織的廣泛支持和採用,包括PyTorch Foundation、vLLM、SkyRL (UCB)、Lightning AI、Axolotl AI、Stanford Scaling Intelligence Lab、Mithril、OpenMined、Scaler AI Labs、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard和Snorkel AI。

為什麼我們需要OpenEnv來訓練開源智能體?智能體框架如Claude Code、Codex、OpenClaw和Hermes在不斷進步。部分原因是像GPT-5.5和Opus 4.8這樣的模型經過訓練以使用各自的框架。我們也希望開源模型能獲得同樣的進步:訓練本地模型有效使用框架,並通過專門化特定任務來節省計算資源。

為什麼需要更加開放?前沿實驗室訓練的模型和框架通常是緊密配合的。模型經過訓練以使用框架並針對其特性進行優化。模型可以在一定程度上泛化到其他框架,但沒有什麼比訓練的效率更高。在開源領域,情況並非如此。開發者使用任何框架、任何模型、任何推理引擎,無論他們重視什麼用例。這對社區至關重要,但也帶來了需要基礎設施和工具來應對的挑戰。OpenEnv就是為了解決這個問題而誕生的。它是一個在框架、環境和訓練器之間進行接口的庫,適用於任何模型。為了使其持續發展,它需要由所有主要利益相關者共同擁有。

協議層,而非獎勵框架。隨着治理結構的改變,我們也明確了OpenEnv的定位。在最近的版本中,OpenEnv已成為強化學習環境的互操作性層。其工作是標準化環境的發佈、部署和智能體使用方式。它不會規定如何定義獎勵或訓練循環如何工作。獎勵定義、評分規則和訓練器特定邏輯應屬於專門處理它們的庫。OpenEnv是一個它們都可以插入的公共接口。實際上,這意味着:一個接口,多個環境,所有環境都暴露熟悉的Gymnasium風格API(reset()、step()、state()),並運行在客户端/服務器架構上。支持OpenEnv的訓練器可以驅動任何兼容的環境,而無需定製代碼。熟悉的協議和規範的打包方式。環境通過HTTP和WebSocket等標準協議提供服務,並使用Docker打包。MCP是核心支持,因此OpenEnv環境與MCP服務器即時兼容,並且同一環境在模擬(訓練/評估)和生產模式下行為一致。跨環境庫的互操作性。您可以在不同的生態系統(如verifiers、harbor等)中定義和使用環境,並在您選擇的基礎設施和中心上使用。OpenEnv是它們底層的部署和接口層,而不是它們的競爭對手。

接下來做什麼?在接下來的幾個月裏,我們將專注於將OpenEnv從一個快速增長的項目轉變為一個可靠的標準化工具:通過數據集連接任務集,將環境任務與Hugging Face數據集關聯;外部獎勵,允許獎勵在您已經使用的任何庫中定義,OpenEnv作為部署層;持續集成智能體框架;端到端示例,在TRL、Unsloth及其他框架中提供完整的訓練和評估流程;自動驗證,衡量環境質量和其對模型學習的貢獻。

如何參與?OpenEnv的設計以社區為中心,目前還處於早期階段,可能存在不完善之處,歡迎幫助改進。查看代碼和RFC:github.com/huggingface/OpenEnv。感謝所有幫助實現這一轉變的人。讓我們一起構建開源智能體強化學習的共同基礎。