AI News HubLIVE
サイト内リライト2 分で読了

ローカルモデルでOpenClawリポジトリのトリアージを無料で実現!*

OpenClawのメンテナーがローカルのオープンウェイトモデル(Gemma、Qwen)をエージェントハーネスで使用し、イシューやプルリクエストをリアルタイムでトリアージするシステムを構築。クローズドモデルに匹敵する性能をローカルハードウェアで実現。

2026年6月、Anthropicが最新のフラッグシップモデルClaude Fable 5を削除したことにより、クローズドモデルがいつでも利用できなくなる可能性が現実のものとなりました。特にビジネスをAI上に構築している企業にとって、自前のAIスタックを持ち、ローカルでモデルを実行できることの重要性がかつてなく高まっています。このような背景から、OpenClawのメンテナーであるOnur Solmazは、自身が所有するNVIDIA GB10 DGX Spark(128GB統合メモリ)を活用し、ローカルのオープンウェイトモデルを使用してリポジトリのイシューやプルリクエストをリアルタイムでトリアージするシステム「localpager」を構築しました。

localpagerは、piエージェントハーネスをベースに、GemmaやQwenなどのローカルモデルを分類タスクに利用します。従来のBERTのようなモデルとは異なり、このシステムではエージェントがコードベースを直接調査できるため、より正確な分類が可能です。セキュリティ上の理由から、システムは「reposhell」と呼ばれる読み取り専用のシェルを使用します。reposhellはls、cat、grepなどの読み取り操作のみを許可し、書き込みやネットワークコマンドはすべて拒否するため、プロンプトインジェクション攻撃を効果的に防ぎます。例えば、Kimiのツールコール書き換えに関するPRを処理する際、Qwenモデルがreposhellを使って拡張ディレクトリのpackage.jsonを確認し、実際はKimiプロバイダプラグインであることを発見したため、正しいラベル(inference_api、tool_calling)に修正できた事例があります。

モデルの性能評価では、gemma-4-26b-a4bとqwen3.6-35b-a3bの2つを330件のイシューとPRからなる評価セットで比較しました。その結果、Gemmaは再現率で優れ(0.905)、1行あたりの処理時間も1.41秒と高速で、16の同時実行が可能でした。一方、Qwenは精度が高く(0.831)、偽陽性が少なく(105.7対227.0)、完全一致率も0.540と良好でした。参考として実行したDeepSeek-V4-Flashは精度が最も高かったものの(0.938)、処理速度が極めて遅く(1行144秒)、同時実行も1のみで、リアルタイム処理には不向きでした。GemmaはNVFP4量子化により、GB10上で毎秒700以上の出力トークンを達成できることも確認されています。

システムのアーキテクチャは半エージェンティックです。分類はモデルがエージェントとして行い、通知は決定論的なルールで処理されます。これにより、推論リソースを必要なタスクに集中させ、通知パイプラインの高速化とエラー低減を実現しています。具体的な流れとしては、gitcrawlでリポジトリをローカルミラーし、新しい項目をSQLiteデータベースに保存します。ワーカーがキューからジョブを取得し、タイトルや本文、ラベル、変更ファイルなどのコンテキストを含むプロンプトを生成してlocalpager-agentに渡します。エージェントはreposhellを使用しながら最終的な分類結果を出力し、その結果はユーザーが設定した通知ポリシーに従ってDiscordに送信されます。

この取り組みは、ローカルモデルが実用的なトリアージタスクを十分に遂行できることを示しています。クローズドモデルに依存せず、電気代以外の追加コストなしでリアルタイムの通知システムを構築できるため、AIに依存するビジネスにとって信頼性の高い自律的なソリューションを提供します。ローカルモデルの性能が向上するにつれ、このようなセットアップの普及が期待されます。