利用智能路由節省Claude Code Tokens
Brick是一個混合模型路由網關,通過分析每個提示的能力和複雜性,將其路由到最合適的模型,從而在保持質量的同時大幅降低成本。支持Claude Code、Codex等,提供5種模式調節成本/質量平衡。
Brick 是一個創新的 Mixture-of-Models (MoM) 路由網關,旨在解決多模型部署中的成本與質量平衡問題。它通過分析每個提示在六個能力維度(編碼、創意合成、指令遵循、數學推理、規劃代理、世界知識)上的需求和複雜性,將請求智能路由到最合適的後端模型,無論是開源還是閉源模型。與級聯路由器不同,Brick 採用單次前向決策,避免了多次調用造成的令牌浪費和延遲。這使得它能夠匹配最強單一模型的質量,同時成本大大降低。
Brick 的典型使用場景包括:擁有多個模型並希望為每個查詢分配最佳模型;希望通過在 Claude Code 或 Codex 前放置 Brick 來降低成本而不犧牲質量;以及希望統一不同模型到單一工具中。通過簡單的 CLI 命令 brick claude on,即可啓動本地路由服務器並自動配置環境變量。用户隨後可以在 Claude Code 的模型選擇器中選擇 brick-claude,每個請求將根據能力和複雜度路由到 haiku、sonnet 或 opus。Brick 提供了五種模式(eco、lite、mid、pro、max),用户可通過思考努力滑塊直接切換,從而精細控制成本與質量的權衡。當選擇原生模型時,Brick 被繞過去,直接調用所選模型。
在可觀測性方面,Brick 提供了實時儀表盤,顯示按模型路由的數量和百分比、每個模型的努力分佈、難度混合情況以及相較於全使用 opus 的預估節省百分比。它還顯示連接狀態、分類器延遲和回退率。Brick 支持 Claude Code 的工作流和子代理:每個代理的調用獨立路由,因此一個廉價子代理任務可以落在 haiku 上,而困難任務升級到 opus,在同一個運行中。對於 OpenAI Codex,Brick 提供了相同的集成方式,使開發者能夠在保持 Codex 界面一致的同時,使用非 OpenAI 模型並通過一個 OpenAI 兼容端點控制成本。
除了與編碼代理的集成,Brick 還可以作為獨立的 OpenAI 兼容網關運行。用户可以通過 Docker 或直接源碼運行,任何客户端均可通過標準 API 調用,並設置 model: "brick"。響應頭 x-selected-model 會顯示實際選擇的模型。配置方面,核心是 config.yaml 文件中的 skill_router 塊,用户可定義模型池、每個模型的技能向量和成本權重。還可以添加關鍵詞規則進行硬性覆蓋或軟性偏向,以及調整連續性參數 r 來平衡成本與質量。
Brick 項目是一個單體倉庫,包含用 Go 和 Rust 編寫的路由服務器、TypeScript 編寫的 CLI、訓練代碼(ModernBERT 能力掃描和複雜性 LoRA 配方)、評估流水線(包含三個評判員多數投票面板)以及論文的 LaTeX 源碼。這為研究和實際應用提供了完整的工具鏈。Brick 的架構包括用 Go 編寫的 HTTP 代理和用 Rust 實現的 ML 嵌入(基於 candle)。它支持多模態預處理,包括語音轉文字、OCR 和視覺。總之,Brick 為 LLM 路由提供了一個強大而靈活的解決方案,適用於從個人開發者到企業部署的各種場景,通過智能路由大幅降低推理成本,同時保持或提升輸出質量。