Ornith-1.0:自我改進的開原始碼智慧編碼模型
Ornith-1.0 是一個開源編碼智慧體模型系列,基於 Gemma 4 和 Qwen 3.5 後訓練,採用強化學習同時最佳化搜尋腳手架和解決方案,在 Terminal-Bench、SWE-Bench、NL2Repo 和 OpenClaw 等基準測試中達到同類開源模型的最優效能。提供 9B(密集)、35B(MoE)和 397B(MoE)三種規模,MIT 許可證,支援 OpenAI 相容 API 和工具呼叫,可部署於 vLLM、SGLang、llama.cpp 等推理引擎。
Ornith-1.0 是由 DeepReinforce AI 推出的開源編碼智慧體模型系列,旨在透過自我改進的強化學習框架提升智慧體編碼能力。該系列基於 Google 的 Gemma 4 和阿里巴巴的 Qwen 3.5 模型進行後訓練,提供三種規模:9B 引數密集模型、35B 引數混合專家(MoE)模型以及 397B 引數 MoE 模型。在 Terminal-Bench 2.1、SWE-bench Verified、NL2Repo 和 ClawEval 等主流編碼基準測試中,Ornith-1.0 在同等引數規模下均達到了開源模型的最高水平。
Ornith-1.0 的核心創新在於其自我改進的訓練框架。傳統方法通常分別訓練解決方案生成和腳手架(scaffold),而 Ornith-1.0 利用強化學習聯合最佳化兩者。模型不僅學習生成解決方案,還學習驅動搜尋過程的腳手架,透過同時最佳化腳手架和最終解,模型能夠發現更優的搜尋軌跡,從而產生更高質量的解決方案。這種設計使得模型在智慧體編碼任務中表現出色,能夠更高效地處理複雜程式設計問題。
在具體基準測試表現上,Ornith-1.0-397B 模型在多個測試中超越了 Qwen3.5-397B、GLM-5.2-744B、DeepSeek-V4-Pro 等大型模型。例如,在 SWE-bench Verified 中,Ornith-1.0-397B 達到 82.4% 的透過率;在 Terminal-Bench 2.1(Terminus-2)中達到 77.5%;在 NL2Repo 中達到 48.2%。較小的 35B 模型也在其規模組中領先,Terminal-Bench 2.1 得分 64.2%,SWE-bench Verified 得分 75.6%。
該系列採用 MIT 許可證,完全開源且無區域限制,全球開發者均可自由使用和修改。模型相容 OpenAI 的 API 介面,支援工具呼叫(tool calling),可無縫整合到現有智慧體框架中,如 Hermes Agent、OpenHands 等。部署方面,Ornith-1.0 支援 vLLM(≥0.19.1)、SGLang(≥0.5.9)和 Hugging Face Transformers(≥5.8.1)等推理引擎,並提供 bf16、FP8 和 GGUF 量化等多種格式,以適應不同硬體環境。
對於本地推理,使用者可以使用 llama.cpp 或 Ollama 載入 GGUF 格式的模型。例如,9B 模型可在單塊 80GB GPU 上執行,而 397B 模型則需要多 GPU 節點並啟用張量並行。模型支援 256K(262,144 token)的上下文視窗,推薦取樣引數為溫度 0.6、top_p 0.95、top_k 20。
Ornith-1.0 的釋出為開源社群在智慧體編碼領域提供了一個強大且靈活的選項。其自我改進的訓練機制和出色的基準表現,表明它在自動化程式碼生成、程式修復和軟體工程任務中具有廣泛應用前景。開發者可以透過 GitHub 倉庫獲取模型權重和部署指南,並利用其 OpenAI 相容 API 快速整合到現有工作流中。