2026-06-26 01:11 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-26 01:16 UTC+8

DeepReinforce發佈Ornith-1.0：開源編程模型家族，自我學習強化學習框架

DeepReinforce發佈了Ornith-1.0，一個基於Gemma 4和Qwen 3.5的開源編程模型系列，涵蓋9B至397B四種規模。其核心創新在於模型在強化學習過程中自主學習框架（scaffold），而非依賴固定的人造框架。旗艦版397B模型在SWE-Bench Verified上取得82.4分，所有權重均在MIT許可下開源。

來源MarkTechPost作者: Asif Razzaq

DeepReinforce 發佈了 Ornith-1.0，這是一個面向智能編程代理的開源模型系列。該系列包含四種規模：9B 稠密模型、31B 稠密模型、35B 混合專家模型以及 397B 混合專家旗艦模型。所有檢查點均在 MIT 許可下發布在 Hugging Face 上。這些模型基於預訓練的 Gemma 4 和 Qwen 3.5 進行後訓練。

大多數編程代理將模型與固定的人造框架（框架）配對使用。Ornith-1.0 則不同，它學會了自主編寫框架。DeepReinforce 研究團隊報告稱，在同等規模的開源模型中，該模型取得了最先進的成果。

什麼是 Ornith-1.0？

Ornith-1.0 是一套專為編程代理調優的推理模型。變體包括 9B 稠密、31B 稠密、35B MoE 和 397B MoE。35B 模型採用混合專家架構，每個 token 約激活 3B 參數。此外，還發布了 FP8 和 GGUF 構建版本，以加速本地服務。

每個模型都是推理模型。回覆以最終答案前的推理塊開頭。服務配方啓用推理解析器，使得推理軌跡在獨立的 reasoning_content 字段中返回。模型還針對代理循環輸出格式良好的工具調用。

部署過程簡單直接。9B 模型在 bf16 下約 19GB，可在單個 80GB GPU 上運行。服務配方支持 vLLM、SGLang 和 Transformers。每個模型提供 OpenAI 兼容端點，因此標準代理框架無需修改代碼即可運行。

交互式解釋：自學習框架理念

大多數編程代理依賴框架，也稱為框架。框架為模型封裝了內存、工具、錯誤處理和編排邏輯。AI 團隊通常為每個任務類別手動設計一個框架。

Ornith-1.0 將框架視為可學習的對象。在強化學習過程中，框架與模型的策略共同進化。每個 RL 步驟分為兩個階段：首先，模型讀取任務及其之前的框架，然後提出改進後的框架；其次，使用該框架和任務生成解決方案的展開軌跡，並將獎勵信號傳播回兩個階段。

因此，模型被優化以編寫編排邏輯，而不僅僅是答案。經過訓練，高獎勵的框架會自動進行變異和選擇。每個任務無需手動設計框架即可湧現出相應策略。

訓練採用異步方式進行，使用流水線 RL 設置。通過陳舊性權重降低較舊、離策略 token 的權重，並在超過閾值時丟棄它們。優化使用 token 級別的 GRPO 目標。

防禦獎勵黑客攻擊

讓模型自行編寫框架可能導致獎勵黑客攻擊。框架可能讀取可見的測試文件並硬編碼預期輸出，或者複製環境中已有的 oracle 解決方案。DeepReinforce 團隊描述了三個防禦層。

外層信任邊界是固定且不可變的。環境、工具表面和測試隔離位於模型不可觸及的範圍之外。模型僅演化其內部策略框架。

確定性監控器會標記禁止的操作。讀取隱藏路徑或編輯驗證腳本將獲得零獎勵，這些軌跡被排除在優勢計算之外。

凍結的 LLM 裁判充當否決權，它位於驗證器之上，而非作為主要獎勵。

基準測試

DeepReinforce 報告了多項智能編程基準測試的供應商數據。在旗艦規模上，Ornith-1.0-397B 在 Terminal-Bench 2.1 上達到 77.5，在 SWE-Bench Verified 上達到 82.4。在 SWE-Bench Verified 上，該 82.4 的成績在所列模型中僅次於 Claude Opus 4.8（87.6）。在 Terminal-Bench 2.1 上，情況則更為複雜：Ornith-1.0-397B 擊敗了 Claude Opus 4.7（70.3），但落後於 Claude Opus 4.8（85）和更大的 GLM-5.2-744B（81.0）。因此，“最先進”的聲明僅限於同等規模的開源模型。

較小模型則體現了效率優勢。35B 模型在 Terminal-Bench 2.1 上得分為 64.2，高於 Qwen 3.5-397B 的 53.5。9B 模型在 Terminal-Bench 2.1 上達到 43.1，在 SWE-Bench Verified 上達到 69.4。

使用場景與快速入門

這些模型面向終端原生編程代理和倉庫級工作。實際應用包括多文件重構、錯誤定位和測試驅動的補丁。9B 模型適用於邊緣或單 GPU 環境，對延遲和成本敏感。397B 模型則面向需要最高準確性的長步驟、多步驟任務。

例如，開發者可以本地運行 9B 模型來診斷失敗的測試套件；平台團隊可以自託管 397B 模型用於內部編程代理。

使用 vLLM 進行服務只需一行命令：

vllm serve deepreinforce-ai/Ornith-1.0-9B \
--served-model-name Ornith-1.0-9B \
--max-model-len 262144 \
--enable-auto-tool-choice --tool-call-parser qwen3_xml \
--reasoning-parser qwen3 \
--trust-remote-code

接着使用任何 OpenAI 客户端調用：

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

resp = client.chat.completions.create(
    model="Ornith-1.0-9B",
    messages=[{"role": "user", "content": "Write a Python is_prime(n)."}],
    temperature=0.6, top_p=0.95,
)
msg = resp.choices[0].message
print(getattr(msg, "reasoning_content", None)) # 推理軌跡
print(msg.content) # 最終答案

推理軌跡在 reasoning_content 中返回，答案在 content 中。推薦採樣參數為 temperature=0.6, top_p=0.95, top_k=20。模型還可接入 OpenHands、OpenClaw 和 OpenCode。

查看模型權重和技術細節。歡迎關注我們的 Twitter，加入我們的 150k+ ML SubReddit，訂閲我們的 Newsletter。也可以在 Telegram 上找到我們。如需合作推廣您的 GitHub 倉庫、Hugging Face 頁面、產品發佈或網絡研討會，請與我們聯繫。