2026-06-30 01:16 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 01:24 UTC+8

Ornith-1.0：自我改進的開源代碼智能編碼模型

Ornith-1.0 是一個開源編碼智能體模型系列，基於 Gemma 4 和 Qwen 3.5 後訓練，採用強化學習同時優化搜索腳手架和解決方案，在 Terminal-Bench、SWE-Bench、NL2Repo 和 OpenClaw 等基準測試中達到同類開源模型的最優性能。提供 9B（密集）、35B（MoE）和 397B（MoE）三種規模，MIT 許可證，支持 OpenAI 兼容 API 和工具調用，可部署於 vLLM、SGLang、llama.cpp 等推理引擎。

來源Hacker News AI作者: danboarder

Ornith-1.0 是由 DeepReinforce AI 推出的開源編碼智能體模型系列，旨在通過自我改進的強化學習框架提升智能體編碼能力。該系列基於 Google 的 Gemma 4 和阿里巴巴的 Qwen 3.5 模型進行後訓練，提供三種規模：9B 參數密集模型、35B 參數混合專家（MoE）模型以及 397B 參數 MoE 模型。在 Terminal-Bench 2.1、SWE-bench Verified、NL2Repo 和 ClawEval 等主流編碼基準測試中，Ornith-1.0 在同等參數規模下均達到了開源模型的最高水平。

Ornith-1.0 的核心創新在於其自我改進的訓練框架。傳統方法通常分別訓練解決方案生成和腳手架（scaffold），而 Ornith-1.0 利用強化學習聯合優化兩者。模型不僅學習生成解決方案，還學習驅動搜索過程的腳手架，通過同時優化腳手架和最終解，模型能夠發現更優的搜索軌跡，從而產生更高質量的解決方案。這種設計使得模型在智能體編碼任務中表現出色，能夠更高效地處理複雜編程問題。

在具體基準測試表現上，Ornith-1.0-397B 模型在多個測試中超越了 Qwen3.5-397B、GLM-5.2-744B、DeepSeek-V4-Pro 等大型模型。例如，在 SWE-bench Verified 中，Ornith-1.0-397B 達到 82.4% 的通過率；在 Terminal-Bench 2.1（Terminus-2）中達到 77.5%；在 NL2Repo 中達到 48.2%。較小的 35B 模型也在其規模組中領先，Terminal-Bench 2.1 得分 64.2%，SWE-bench Verified 得分 75.6%。

該系列採用 MIT 許可證，完全開源且無區域限制，全球開發者均可自由使用和修改。模型兼容 OpenAI 的 API 接口，支持工具調用（tool calling），可無縫集成到現有智能體框架中，如 Hermes Agent、OpenHands 等。部署方面，Ornith-1.0 支持 vLLM（≥0.19.1）、SGLang（≥0.5.9）和 Hugging Face Transformers（≥5.8.1）等推理引擎，並提供 bf16、FP8 和 GGUF 量化等多種格式，以適應不同硬件環境。

對於本地推理，用户可以使用 llama.cpp 或 Ollama 加載 GGUF 格式的模型。例如，9B 模型可在單塊 80GB GPU 上運行，而 397B 模型則需要多 GPU 節點並啓用張量並行。模型支持 256K（262,144 token）的上下文窗口，推薦採樣參數為温度 0.6、top_p 0.95、top_k 20。

Ornith-1.0 的發佈為開源社區在智能體編碼領域提供了一個強大且靈活的選項。其自我改進的訓練機制和出色的基準表現，表明它在自動化代碼生成、程序修復和軟件工程任務中具有廣泛應用前景。開發者可以通過 GitHub 倉庫獲取模型權重和部署指南，並利用其 OpenAI 兼容 API 快速集成到現有工作流中。