AI News HubLIVE
站內改寫3 分鐘閱讀

DeepReinforce發佈Ornith-1.0:開源編程模型家族,自我學習強化學習框架

DeepReinforce發佈了Ornith-1.0,一個基於Gemma 4和Qwen 3.5的開源編程模型系列,涵蓋9B至397B四種規模。其核心創新在於模型在強化學習過程中自主學習框架(scaffold),而非依賴固定的人造框架。旗艦版397B模型在SWE-Bench Verified上取得82.4分,所有權重均在MIT許可下開源。

來源MarkTechPost作者: Asif Razzaq

DeepReinforce 發佈了 Ornith-1.0,這是一個面向智能編程代理的開源模型系列。該系列包含四種規模:9B 稠密模型、31B 稠密模型、35B 混合專家模型以及 397B 混合專家旗艦模型。所有檢查點均在 MIT 許可下發布在 Hugging Face 上。這些模型基於預訓練的 Gemma 4 和 Qwen 3.5 進行後訓練。

大多數編程代理將模型與固定的人造框架(框架)配對使用。Ornith-1.0 則不同,它學會了自主編寫框架。DeepReinforce 研究團隊報告稱,在同等規模的開源模型中,該模型取得了最先進的成果。

什麼是 Ornith-1.0?

Ornith-1.0 是一套專為編程代理調優的推理模型。變體包括 9B 稠密、31B 稠密、35B MoE 和 397B MoE。35B 模型採用混合專家架構,每個 token 約激活 3B 參數。此外,還發布了 FP8 和 GGUF 構建版本,以加速本地服務。

每個模型都是推理模型。回覆以最終答案前的推理塊開頭。服務配方啓用推理解析器,使得推理軌跡在獨立的 reasoning_content 字段中返回。模型還針對代理循環輸出格式良好的工具調用。

部署過程簡單直接。9B 模型在 bf16 下約 19GB,可在單個 80GB GPU 上運行。服務配方支持 vLLM、SGLang 和 Transformers。每個模型提供 OpenAI 兼容端點,因此標準代理框架無需修改代碼即可運行。

交互式解釋:自學習框架理念

大多數編程代理依賴框架,也稱為框架。框架為模型封裝了內存、工具、錯誤處理和編排邏輯。AI 團隊通常為每個任務類別手動設計一個框架。

Ornith-1.0 將框架視為可學習的對象。在強化學習過程中,框架與模型的策略共同進化。每個 RL 步驟分為兩個階段:首先,模型讀取任務及其之前的框架,然後提出改進後的框架;其次,使用該框架和任務生成解決方案的展開軌跡,並將獎勵信號傳播回兩個階段。

因此,模型被優化以編寫編排邏輯,而不僅僅是答案。經過訓練,高獎勵的框架會自動進行變異和選擇。每個任務無需手動設計框架即可湧現出相應策略。

訓練採用異步方式進行,使用流水線 RL 設置。通過陳舊性權重降低較舊、離策略 token 的權重,並在超過閾值時丟棄它們。優化使用 token 級別的 GRPO 目標。

防禦獎勵黑客攻擊

讓模型自行編寫框架可能導致獎勵黑客攻擊。框架可能讀取可見的測試文件並硬編碼預期輸出,或者複製環境中已有的 oracle 解決方案。DeepReinforce 團隊描述了三個防禦層。

外層信任邊界是固定且不可變的。環境、工具表面和測試隔離位於模型不可觸及的範圍之外。模型僅演化其內部策略框架。

確定性監控器會標記禁止的操作。讀取隱藏路徑或編輯驗證腳本將獲得零獎勵,這些軌跡被排除在優勢計算之外。

凍結的 LLM 裁判充當否決權,它位於驗證器之上,而非作為主要獎勵。

基準測試

DeepReinforce 報告了多項智能編程基準測試的供應商數據。在旗艦規模上,Ornith-1.0-397B 在 Terminal-Bench 2.1 上達到 77.5,在 SWE-Bench Verified 上達到 82.4。在 SWE-Bench Verified 上,該 82.4 的成績在所列模型中僅次於 Claude Opus 4.8(87.6)。在 Terminal-Bench 2.1 上,情況則更為複雜:Ornith-1.0-397B 擊敗了 Claude Opus 4.7(70.3),但落後於 Claude Opus 4.8(85)和更大的 GLM-5.2-744B(81.0)。因此,“最先進”的聲明僅限於同等規模的開源模型。

較小模型則體現了效率優勢。35B 模型在 Terminal-Bench 2.1 上得分為 64.2,高於 Qwen 3.5-397B 的 53.5。9B 模型在 Terminal-Bench 2.1 上達到 43.1,在 SWE-Bench Verified 上達到 69.4。

使用場景與快速入門

這些模型面向終端原生編程代理和倉庫級工作。實際應用包括多文件重構、錯誤定位和測試驅動的補丁。9B 模型適用於邊緣或單 GPU 環境,對延遲和成本敏感。397B 模型則面向需要最高準確性的長步驟、多步驟任務。

例如,開發者可以本地運行 9B 模型來診斷失敗的測試套件;平台團隊可以自託管 397B 模型用於內部編程代理。

使用 vLLM 進行服務只需一行命令:

vllm serve deepreinforce-ai/Ornith-1.0-9B \
--served-model-name Ornith-1.0-9B \
--max-model-len 262144 \
--enable-auto-tool-choice --tool-call-parser qwen3_xml \
--reasoning-parser qwen3 \
--trust-remote-code

接着使用任何 OpenAI 客户端調用:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

resp = client.chat.completions.create(
    model="Ornith-1.0-9B",
    messages=[{"role": "user", "content": "Write a Python is_prime(n)."}],
    temperature=0.6, top_p=0.95,
)
msg = resp.choices[0].message
print(getattr(msg, "reasoning_content", None)) # 推理軌跡
print(msg.content) # 最終答案

推理軌跡在 reasoning_content 中返回,答案在 content 中。推薦採樣參數為 temperature=0.6, top_p=0.95, top_k=20。模型還可接入 OpenHands、OpenClaw 和 OpenCode。

查看模型權重和技術細節。歡迎關注我們的 Twitter,加入我們的 150k+ ML SubReddit,訂閲我們的 Newsletter。也可以在 Telegram 上找到我們。如需合作推廣您的 GitHub 倉庫、Hugging Face 頁面、產品發佈或網絡研討會,請與我們聯繫。