AI News HubLIVE
站内改写2 分钟阅读

Ornith-1.0:自我改进的开源代码智能编码模型

Ornith-1.0 是一个开源编码智能体模型系列,基于 Gemma 4 和 Qwen 3.5 后训练,采用强化学习同时优化搜索脚手架和解决方案,在 Terminal-Bench、SWE-Bench、NL2Repo 和 OpenClaw 等基准测试中达到同类开源模型的最优性能。提供 9B(密集)、35B(MoE)和 397B(MoE)三种规模,MIT 许可证,支持 OpenAI 兼容 API 和工具调用,可部署于 vLLM、SGLang、llama.cpp 等推理引擎。

来源Hacker News AI作者: danboarder

Ornith-1.0 是由 DeepReinforce AI 推出的开源编码智能体模型系列,旨在通过自我改进的强化学习框架提升智能体编码能力。该系列基于 Google 的 Gemma 4 和阿里巴巴的 Qwen 3.5 模型进行后训练,提供三种规模:9B 参数密集模型、35B 参数混合专家(MoE)模型以及 397B 参数 MoE 模型。在 Terminal-Bench 2.1、SWE-bench Verified、NL2Repo 和 ClawEval 等主流编码基准测试中,Ornith-1.0 在同等参数规模下均达到了开源模型的最高水平。

Ornith-1.0 的核心创新在于其自我改进的训练框架。传统方法通常分别训练解决方案生成和脚手架(scaffold),而 Ornith-1.0 利用强化学习联合优化两者。模型不仅学习生成解决方案,还学习驱动搜索过程的脚手架,通过同时优化脚手架和最终解,模型能够发现更优的搜索轨迹,从而产生更高质量的解决方案。这种设计使得模型在智能体编码任务中表现出色,能够更高效地处理复杂编程问题。

在具体基准测试表现上,Ornith-1.0-397B 模型在多个测试中超越了 Qwen3.5-397B、GLM-5.2-744B、DeepSeek-V4-Pro 等大型模型。例如,在 SWE-bench Verified 中,Ornith-1.0-397B 达到 82.4% 的通过率;在 Terminal-Bench 2.1(Terminus-2)中达到 77.5%;在 NL2Repo 中达到 48.2%。较小的 35B 模型也在其规模组中领先,Terminal-Bench 2.1 得分 64.2%,SWE-bench Verified 得分 75.6%。

该系列采用 MIT 许可证,完全开源且无区域限制,全球开发者均可自由使用和修改。模型兼容 OpenAI 的 API 接口,支持工具调用(tool calling),可无缝集成到现有智能体框架中,如 Hermes Agent、OpenHands 等。部署方面,Ornith-1.0 支持 vLLM(≥0.19.1)、SGLang(≥0.5.9)和 Hugging Face Transformers(≥5.8.1)等推理引擎,并提供 bf16、FP8 和 GGUF 量化等多种格式,以适应不同硬件环境。

对于本地推理,用户可以使用 llama.cpp 或 Ollama 加载 GGUF 格式的模型。例如,9B 模型可在单块 80GB GPU 上运行,而 397B 模型则需要多 GPU 节点并启用张量并行。模型支持 256K(262,144 token)的上下文窗口,推荐采样参数为温度 0.6、top_p 0.95、top_k 20。

Ornith-1.0 的发布为开源社区在智能体编码领域提供了一个强大且灵活的选项。其自我改进的训练机制和出色的基准表现,表明它在自动化代码生成、程序修复和软件工程任务中具有广泛应用前景。开发者可以通过 GitHub 仓库获取模型权重和部署指南,并利用其 OpenAI 兼容 API 快速集成到现有工作流中。