2026-06-30 01:16 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 01:24 UTC+8

Ornith-1.0：自我改進的開原始碼智慧編碼模型

Ornith-1.0 是一個開源編碼智慧體模型系列，基於 Gemma 4 和 Qwen 3.5 後訓練，採用強化學習同時最佳化搜尋腳手架和解決方案，在 Terminal-Bench、SWE-Bench、NL2Repo 和 OpenClaw 等基準測試中達到同類開源模型的最優效能。提供 9B（密集）、35B（MoE）和 397B（MoE）三種規模，MIT 許可證，支援 OpenAI 相容 API 和工具呼叫，可部署於 vLLM、SGLang、llama.cpp 等推理引擎。

來源Hacker News AI作者: danboarder

Ornith-1.0 是由 DeepReinforce AI 推出的開源編碼智慧體模型系列，旨在透過自我改進的強化學習框架提升智慧體編碼能力。該系列基於 Google 的 Gemma 4 和阿里巴巴的 Qwen 3.5 模型進行後訓練，提供三種規模：9B 引數密集模型、35B 引數混合專家（MoE）模型以及 397B 引數 MoE 模型。在 Terminal-Bench 2.1、SWE-bench Verified、NL2Repo 和 ClawEval 等主流編碼基準測試中，Ornith-1.0 在同等引數規模下均達到了開源模型的最高水平。

Ornith-1.0 的核心創新在於其自我改進的訓練框架。傳統方法通常分別訓練解決方案生成和腳手架（scaffold），而 Ornith-1.0 利用強化學習聯合最佳化兩者。模型不僅學習生成解決方案，還學習驅動搜尋過程的腳手架，透過同時最佳化腳手架和最終解，模型能夠發現更優的搜尋軌跡，從而產生更高質量的解決方案。這種設計使得模型在智慧體編碼任務中表現出色，能夠更高效地處理複雜程式設計問題。

在具體基準測試表現上，Ornith-1.0-397B 模型在多個測試中超越了 Qwen3.5-397B、GLM-5.2-744B、DeepSeek-V4-Pro 等大型模型。例如，在 SWE-bench Verified 中，Ornith-1.0-397B 達到 82.4% 的透過率；在 Terminal-Bench 2.1（Terminus-2）中達到 77.5%；在 NL2Repo 中達到 48.2%。較小的 35B 模型也在其規模組中領先，Terminal-Bench 2.1 得分 64.2%，SWE-bench Verified 得分 75.6%。

該系列採用 MIT 許可證，完全開源且無區域限制，全球開發者均可自由使用和修改。模型相容 OpenAI 的 API 介面，支援工具呼叫（tool calling），可無縫整合到現有智慧體框架中，如 Hermes Agent、OpenHands 等。部署方面，Ornith-1.0 支援 vLLM（≥0.19.1）、SGLang（≥0.5.9）和 Hugging Face Transformers（≥5.8.1）等推理引擎，並提供 bf16、FP8 和 GGUF 量化等多種格式，以適應不同硬體環境。

對於本地推理，使用者可以使用 llama.cpp 或 Ollama 載入 GGUF 格式的模型。例如，9B 模型可在單塊 80GB GPU 上執行，而 397B 模型則需要多 GPU 節點並啟用張量並行。模型支援 256K（262,144 token）的上下文視窗，推薦取樣引數為溫度 0.6、top_p 0.95、top_k 20。

Ornith-1.0 的釋出為開源社群在智慧體編碼領域提供了一個強大且靈活的選項。其自我改進的訓練機制和出色的基準表現，表明它在自動化程式碼生成、程式修復和軟體工程任務中具有廣泛應用前景。開發者可以透過 GitHub 倉庫獲取模型權重和部署指南，並利用其 OpenAI 相容 API 快速整合到現有工作流中。