AI News HubLIVE
站內改寫2 分鐘閱讀

Ornith-1.0:自我改進的開源代碼智能編碼模型

Ornith-1.0 是一個開源編碼智能體模型系列,基於 Gemma 4 和 Qwen 3.5 後訓練,採用強化學習同時優化搜索腳手架和解決方案,在 Terminal-Bench、SWE-Bench、NL2Repo 和 OpenClaw 等基準測試中達到同類開源模型的最優性能。提供 9B(密集)、35B(MoE)和 397B(MoE)三種規模,MIT 許可證,支持 OpenAI 兼容 API 和工具調用,可部署於 vLLM、SGLang、llama.cpp 等推理引擎。

來源Hacker News AI作者: danboarder

Ornith-1.0 是由 DeepReinforce AI 推出的開源編碼智能體模型系列,旨在通過自我改進的強化學習框架提升智能體編碼能力。該系列基於 Google 的 Gemma 4 和阿里巴巴的 Qwen 3.5 模型進行後訓練,提供三種規模:9B 參數密集模型、35B 參數混合專家(MoE)模型以及 397B 參數 MoE 模型。在 Terminal-Bench 2.1、SWE-bench Verified、NL2Repo 和 ClawEval 等主流編碼基準測試中,Ornith-1.0 在同等參數規模下均達到了開源模型的最高水平。

Ornith-1.0 的核心創新在於其自我改進的訓練框架。傳統方法通常分別訓練解決方案生成和腳手架(scaffold),而 Ornith-1.0 利用強化學習聯合優化兩者。模型不僅學習生成解決方案,還學習驅動搜索過程的腳手架,通過同時優化腳手架和最終解,模型能夠發現更優的搜索軌跡,從而產生更高質量的解決方案。這種設計使得模型在智能體編碼任務中表現出色,能夠更高效地處理複雜編程問題。

在具體基準測試表現上,Ornith-1.0-397B 模型在多個測試中超越了 Qwen3.5-397B、GLM-5.2-744B、DeepSeek-V4-Pro 等大型模型。例如,在 SWE-bench Verified 中,Ornith-1.0-397B 達到 82.4% 的通過率;在 Terminal-Bench 2.1(Terminus-2)中達到 77.5%;在 NL2Repo 中達到 48.2%。較小的 35B 模型也在其規模組中領先,Terminal-Bench 2.1 得分 64.2%,SWE-bench Verified 得分 75.6%。

該系列採用 MIT 許可證,完全開源且無區域限制,全球開發者均可自由使用和修改。模型兼容 OpenAI 的 API 接口,支持工具調用(tool calling),可無縫集成到現有智能體框架中,如 Hermes Agent、OpenHands 等。部署方面,Ornith-1.0 支持 vLLM(≥0.19.1)、SGLang(≥0.5.9)和 Hugging Face Transformers(≥5.8.1)等推理引擎,並提供 bf16、FP8 和 GGUF 量化等多種格式,以適應不同硬件環境。

對於本地推理,用户可以使用 llama.cpp 或 Ollama 加載 GGUF 格式的模型。例如,9B 模型可在單塊 80GB GPU 上運行,而 397B 模型則需要多 GPU 節點並啓用張量並行。模型支持 256K(262,144 token)的上下文窗口,推薦採樣參數為温度 0.6、top_p 0.95、top_k 20。

Ornith-1.0 的發佈為開源社區在智能體編碼領域提供了一個強大且靈活的選項。其自我改進的訓練機制和出色的基準表現,表明它在自動化代碼生成、程序修復和軟件工程任務中具有廣泛應用前景。開發者可以通過 GitHub 倉庫獲取模型權重和部署指南,並利用其 OpenAI 兼容 API 快速集成到現有工作流中。