Ornith-1.0:自己改善型のオープンソースエージェントコード生成モデル
Ornith-1.0は、Gemma 4とQwen 3.5をベースに後訓練された、オープンソースのコード生成エージェントモデルシリーズです。強化学習を用いてスキャフォールドとソリューションのロールアウトを同時最適化し、Terminal-Bench、SWE-Bench、NL2Repo、OpenClawなどのベンチマークでオープンソースモデルとして最高性能を達成。9B、35B MoE、397B MoEの3サイズを提供し、MITライセンス、OpenAI互換APIとツール呼び出しをサポートします。
DeepReinforce AIが発表したOrnith-1.0は、コード生成エージェントに特化したオープンソースモデルシリーズです。ベースモデルとしてGoogleのGemma 4とAlibabaのQwen 3.5を採用し、強化学習による自己改善型トレーニングフレームワークを導入しています。ラインナップは9Bパラメータの密結合モデル、35BパラメータのMixture-of-Experts(MoE)モデル、397BパラメータのMoEモデルの3種類で、Terminal-Bench 2.1、SWE-bench Verified、NL2Repo、ClawEvalなどの主要ベンチマークにおいて、同規模のオープンソースモデル中で最高のパフォーマンスを記録しています。
Ornith-1.0の最大の特徴は、ソリューション生成と検索スキャフォールド(scaffold)を強化学習で同時最適化する点にあります。従来の手法ではこれらを別々に訓練していましたが、Ornith-1.0は両者を共同で最適化することで、より優れた探索軌道を発見し、高品質なソリューションを生成します。この自己改善型の仕組みにより、複雑なプログラミングタスクにおいて効率的な問題解決が可能となります。
ベンチマークの実績を見ると、最上位のOrnith-1.0-397BはSWE-bench Verifiedで82.4%、Terminal-Bench 2.1(Terminus-2)で77.5%、NL2Repoで48.2%を達成し、Qwen3.5-397BやGLM-5.2-744B、DeepSeek-V4-Proなどの大規模モデルを凌駕しています。35BモデルでもTerminal-Bench 2.1で64.2%、SWE-bench Verifiedで75.6%と、同サイズの他モデルを大きく上回っています。
本モデルはMITライセンスで提供され、地域制限なく世界中の開発者が自由に利用・改変できます。OpenAI互換のAPIを備え、ツール呼び出し(tool calling)に対応しているため、Hermes AgentやOpenHandsといった既存のエージェントフレームワークにシームレスに組み込むことが可能です。デプロイに関しては、vLLM(≥0.19.1)、SGLang(≥0.5.9)、Hugging Face Transformers(≥5.8.1)などの推論エンジンをサポートし、bf16、FP8、GGUF量子化など様々なフォーマットを用意しています。
ローカル推論にはllama.cppやOllamaを使用でき、9Bモデルは1台の80GB GPUで動作しますが、397Bモデルは複数GPUノードとテンソル並列処理が必要です。コンテキストウィンドウは256K(262,144トークン)をサポートし、推奨サンプリングパラメータは温度0.6、top_p 0.95、top_k 20です。
Ornith-1.0の登場は、オープンソースコミュニティによるエージェントコード生成の可能性を大きく広げるものです。その自己改善型トレーニング手法と優れたベンチマーク結果は、自動コード生成、プログラム修正、ソフトウェアエンジニアリングタスクにおける実用的な応用が期待されます。開発者はGitHubリポジトリからモデルウェイトとデプロイガイドを入手し、OpenAI互換APIを介して素早くワークフローに統合できます。