2026-06-04 15:23 UTC+9サイト内リライト3 分で読了更新: 2026-06-30 22:03 UTC+9

OpenJarvis：ツール、メモリ、学習をすべてデバイス上で実行するローカルファーストAIエージェントフレームワーク

スタンフォード大学とLambda Labsは、推論、エージェント、メモリ、学習をすべてデバイス上で実行するオープンソースフレームワークOpenJarvisを発表しました。このフレームワークは個人用AIシステムを5つの合成可能なプリミティブに分解し、ベンチマークで最高のクラウドモデルに平均3.2ポイント差に迫り、APIコストは約800分の1、レイテンシは約4分の1です。

ソースMarkTechPost著者: Asif Razzaq

記事インテリジェンス

エンジニア上級

要点

OpenJarvisはApache 2.0ライセンスのオープンソースフレームワークで、デバイス上でAIエージェントスタック全体を実行可能。
5つのプリミティブ（インテリジェンス、エンジン、エージェント、ツール＆メモリ、学習）で構成され、TOMLファイルで宣言的に設定。
LLMガイド付きスペック検索により、クラウド-ローカル間のギャップを13～32ポイント回復し、最適化コストは従来の7～11分の1。
8つのベンチマーク中4つでローカルモデルがクラウドに匹敵または勝り、残りのギャップは推論・研究重視タスクに集中。

重要な理由

このニュースが重要なのは、OpenJarvisはApache 2.0ライセンスのオープンソースフレームワークで、デバイス上でAIエージェントスタック全体を実行可能ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

スタンフォード大学とLambda Labsの研究者らは、推論、エージェント、メモリ、学習をすべてユーザーのデバイス上で実行するオープンソースフレームワーク「OpenJarvis」を発表しました。このフレームワークは、個人用AIシステムを5つの型付きプリミティブに分解し、単一の宣言型設定オブジェクト（スペック）で構成します。

OpenJarvisは単一のモデルではなく、サポートされている任意のモデルと構成可能なエージェントスタックを組み合わせるフレームワークです。評価はQwen3.5、Gemma4、Nemotron、Graniteの4ファミリー11モデルで行われ、Claude Opus 4.6、GPT-5.4、Gemini 3.1 Proなどのクラウドベースラインと比較されました。最良のローカルモデルQwen3.5-122Bは平均精度80.3%を達成し、最良クラウドモデルClaude Opus 4.6の83.5%に3.2ポイント差に迫りました。同時に、ローカルモデルの限界APIコストはクラウドの約800分の1（クエリあたり約0.001セント対0.009セント）、エンドツーエンドのレイテンシは約4分の1でした。

フレームワークの核となるアーキテクチャは、5つのプリミティブから構成されます。インテリジェンス（モデル、重み、生成パラメータ、量子化形式）、エンジン（Ollama、vLLMなどの推論ランタイム）、エージェント（ReActやCodeActの推論ループ、システムプロンプト、ツール使用ポリシー）、ツール＆メモリ（外部インターフェース、検索バックエンド、25以上のデータコネクタ、32以上のメッセージングチャネル、MCP対応）、学習（LoRA、DSPy、GEPA、またはLLMガイド付きスペック検索を受け入れるオプティマイザ）です。各プリミティブは独立して交換可能で、スペックはTOMLファイルにシリアライズされ、2つの異なるスペックが同じエージェントとツール設定を共有しながら、モデルとエンジンのみを変更することができます。

OpenJarvisの2番目の主要な貢献は、LLMガイド付きスペック検索です。これはローカル-クラウド連携であり、最先端のクラウドモデルが検索時に教師として機能し、トレースを読み取り、障害クラスタを診断し、インテリジェンス、エンジン、エージェント、ツール＆メモリにわたる編集を提案します。編集は、対象の障害クラスタを改善し、他の場所で有意な後退を引き起こさない場合にのみ受け入れられます（デフォルト許容度1%）。最適化されたスペックは推論時に完全にデバイス上で実行され、クラウド呼び出しはゼロです。教師は検索時のみ使用され、1日100クエリの場合、6ヶ月後の償却教師コストはクエリあたり0.001ドル未満になります。

OpenJarvisは、ツール呼び出し、エージェントワークフロー、コーディング、カスタマーサービス、汎用アシスタンス、ディープリサーチをカバーする8つのベンチマーク（508タスク）で評価されました。交換テストでは、既存のフレームワークのクラウドモデルをQwen3.5-9Bに置き換えると精度が25～39ポイント低下しましたが、同じモデルをOpenJarvisのスペックで使用すると、低下は5.6～16.5ポイントに縮小し、移植性損失の56～77%を回復しました。LLMガイド付きスペック検索により、Qwen3.5-9Bの学生モデルはPinchBenchで100%、LiveCodeBenchで83%、LiveResearchBenchで91%を達成し、全8ベンチマークでの平均ゲインは13.1～31.5ポイントでした。

インストールは1コマンドで完了し、ブロードバンド環境で約3分です。フレームワークには8つの組み込みエージェントが用意されており、オンデマンド、スケジュール、連続の3つの実行モードをサポートします。25以上のデータソースに接続可能で、32以上のメッセージングチャネルを介してエージェントを公開します。スキルは外部カタログからインポート可能です。

OpenJarvisはApache 2.0ライセンスで公開され、フレームワークは2026年3月12日にリリースされました。研究論文は2026年5月16日にarXivに投稿されました。著者らは、結果は各構成5回実行の平均であり、GPT-5-miniを判定者として使用し、単一マシンで実行されたと注意しています。全体として、OpenJarvisはわずかな精度のトレードオフで、大幅なコスト、レイテンシ、プライバシーの利点を提供します。