スマートルーティングでClaude Codeのトークンを節約
BrickはMixture-of-Modelsルーティングゲートウェイであり、各プロンプトの能力と複雑さを分析して最適なモデルにルーティングし、品質を維持しながらコストを大幅に削減します。Claude CodeやCodexとシームレスに統合でき、5つのモードでコストと品質のバランスを調整できます。
Brickは、革新的なMixture-of-Models(MoM)ルーティングゲートウェイであり、複数モデルデプロイメントにおけるコストと品質のバランス問題を解決します。各プロンプトの要求を、コーディング、創造的合成、指示従順、数学的推論、計画エージェント、世界知識の6つの能力次元と複雑さの観点から分析し、最適なバックエンドモデル(オープン/クローズドモデル問わず)に単一の転送判断でルーティングします。カスケード方式と異なり、複数回の呼び出しによるトークンやレイテンシの無駄を排除し、最強単一モデルの品質を低コストで実現します。
Brickの主なユースケースは、複数モデルプールの管理、Claude Code/Codexのコスト削減、異種モデルの統合です。CLIコマンドbrick claude onで簡単にセットアップでき、Claude Codeのモデルセレクタでbrick-claudeを選ぶだけで、各リクエストが能力と複雑さに応じてhaiku、sonnet、opusにルーティングされます。5つのモード(eco、lite、mid、pro、max)を思考努力スライダーから選択でき、コストと品質を細かく調整できます。ネイティブモデルを明示的に選ぶとBrickはバイパスされます。
可観測性としては、リアルタイムダッシュボードがモデル別ルーティング数、努力分布、難易度構成、opus使用時と比較した推定節約率を表示します。また、接続状態、分類器レイテンシ、フォールバック率も確認できます。Claude Codeのワークフローやサブエージェントでも、各エージェントの呼び出しは独立にルーティングされるため、安価なタスクはhaiku、難しいタスクはopusに割り当てられます。同様にCodexでも動作し、非OpenAIモデルをOpenAI互換エンドポイント経由で使用可能にします。
スタンドアロンのOpenAI互換ゲートウェイとしても利用でき、Dockerやソースから実行。任意のクライアントからmodel: "brick"を指定して呼び出せ、レスポンスヘッダx-selected-modelで実際の選択モデルが分かります。設定はconfig.yamlのskill_routerブロックが中心で、モデルプール、各モデルのスキルベクトル、コスト重みを定義。キーワードルールによるオーバーライドやバイアス、連続パラメータr(-1〜1)によるコスト品質トレードオフ調整も可能です。
Brickプロジェクトはモノレポ構成で、GoとRust製のルーター、TypeScript製CLI、ModernBERTの能力スキャンと複雑性LoRAのトレーニングコード、3判定者多数決の評価パイプライン、論文のLaTeXソースを含みます。アーキテクチャはGoのHTTPプロキシとRustのML埋め込み(candleベース)からなり、音声認識、OCR、視覚処理などのマルチモーダル前処理もサポート。Brickは、個人開発者からエンタープライズまで、スマートルーティングによる推論コスト削減と品質維持を実現する強力なソリューションです。