2026-06-30 01:16 UTC+8站内改写2 分钟阅读更新: 2026-06-30 01:24 UTC+8

Ornith-1.0：自我改进的开源代码智能编码模型

Ornith-1.0 是一个开源编码智能体模型系列，基于 Gemma 4 和 Qwen 3.5 后训练，采用强化学习同时优化搜索脚手架和解决方案，在 Terminal-Bench、SWE-Bench、NL2Repo 和 OpenClaw 等基准测试中达到同类开源模型的最优性能。提供 9B（密集）、35B（MoE）和 397B（MoE）三种规模，MIT 许可证，支持 OpenAI 兼容 API 和工具调用，可部署于 vLLM、SGLang、llama.cpp 等推理引擎。

来源Hacker News AI作者: danboarder

Ornith-1.0 是由 DeepReinforce AI 推出的开源编码智能体模型系列，旨在通过自我改进的强化学习框架提升智能体编码能力。该系列基于 Google 的 Gemma 4 和阿里巴巴的 Qwen 3.5 模型进行后训练，提供三种规模：9B 参数密集模型、35B 参数混合专家（MoE）模型以及 397B 参数 MoE 模型。在 Terminal-Bench 2.1、SWE-bench Verified、NL2Repo 和 ClawEval 等主流编码基准测试中，Ornith-1.0 在同等参数规模下均达到了开源模型的最高水平。

Ornith-1.0 的核心创新在于其自我改进的训练框架。传统方法通常分别训练解决方案生成和脚手架（scaffold），而 Ornith-1.0 利用强化学习联合优化两者。模型不仅学习生成解决方案，还学习驱动搜索过程的脚手架，通过同时优化脚手架和最终解，模型能够发现更优的搜索轨迹，从而产生更高质量的解决方案。这种设计使得模型在智能体编码任务中表现出色，能够更高效地处理复杂编程问题。

在具体基准测试表现上，Ornith-1.0-397B 模型在多个测试中超越了 Qwen3.5-397B、GLM-5.2-744B、DeepSeek-V4-Pro 等大型模型。例如，在 SWE-bench Verified 中，Ornith-1.0-397B 达到 82.4% 的通过率；在 Terminal-Bench 2.1（Terminus-2）中达到 77.5%；在 NL2Repo 中达到 48.2%。较小的 35B 模型也在其规模组中领先，Terminal-Bench 2.1 得分 64.2%，SWE-bench Verified 得分 75.6%。

该系列采用 MIT 许可证，完全开源且无区域限制，全球开发者均可自由使用和修改。模型兼容 OpenAI 的 API 接口，支持工具调用（tool calling），可无缝集成到现有智能体框架中，如 Hermes Agent、OpenHands 等。部署方面，Ornith-1.0 支持 vLLM（≥0.19.1）、SGLang（≥0.5.9）和 Hugging Face Transformers（≥5.8.1）等推理引擎，并提供 bf16、FP8 和 GGUF 量化等多种格式，以适应不同硬件环境。

对于本地推理，用户可以使用 llama.cpp 或 Ollama 加载 GGUF 格式的模型。例如，9B 模型可在单块 80GB GPU 上运行，而 397B 模型则需要多 GPU 节点并启用张量并行。模型支持 256K（262,144 token）的上下文窗口，推荐采样参数为温度 0.6、top_p 0.95、top_k 20。

Ornith-1.0 的发布为开源社区在智能体编码领域提供了一个强大且灵活的选项。其自我改进的训练机制和出色的基准表现，表明它在自动化代码生成、程序修复和软件工程任务中具有广泛应用前景。开发者可以通过 GitHub 仓库获取模型权重和部署指南，并利用其 OpenAI 兼容 API 快速集成到现有工作流中。