2026-07-04 06:39 UTC+8站内改写2 分钟阅读更新: 2026-07-04 07:39 UTC+8

利用智能路由节省Claude Code Tokens

Brick是一个混合模型路由网关，通过分析每个提示的能力和复杂性，将其路由到最合适的模型，从而在保持质量的同时大幅降低成本。支持Claude Code、Codex等，提供5种模式调节成本/质量平衡。

来源Hacker News AI作者: FrancescoMassa

Brick 是一个创新的 Mixture-of-Models (MoM) 路由网关，旨在解决多模型部署中的成本与质量平衡问题。它通过分析每个提示在六个能力维度（编码、创意合成、指令遵循、数学推理、规划代理、世界知识）上的需求和复杂性，将请求智能路由到最合适的后端模型，无论是开源还是闭源模型。与级联路由器不同，Brick 采用单次前向决策，避免了多次调用造成的令牌浪费和延迟。这使得它能够匹配最强单一模型的质量，同时成本大大降低。

Brick 的典型使用场景包括：拥有多个模型并希望为每个查询分配最佳模型；希望通过在 Claude Code 或 Codex 前放置 Brick 来降低成本而不牺牲质量；以及希望统一不同模型到单一工具中。通过简单的 CLI 命令 brick claude on，即可启动本地路由服务器并自动配置环境变量。用户随后可以在 Claude Code 的模型选择器中选择 brick-claude，每个请求将根据能力和复杂度路由到 haiku、sonnet 或 opus。Brick 提供了五种模式（eco、lite、mid、pro、max），用户可通过思考努力滑块直接切换，从而精细控制成本与质量的权衡。当选择原生模型时，Brick 被绕过去，直接调用所选模型。

在可观测性方面，Brick 提供了实时仪表盘，显示按模型路由的数量和百分比、每个模型的努力分布、难度混合情况以及相较于全使用 opus 的预估节省百分比。它还显示连接状态、分类器延迟和回退率。Brick 支持 Claude Code 的工作流和子代理：每个代理的调用独立路由，因此一个廉价子代理任务可以落在 haiku 上，而困难任务升级到 opus，在同一个运行中。对于 OpenAI Codex，Brick 提供了相同的集成方式，使开发者能够在保持 Codex 界面一致的同时，使用非 OpenAI 模型并通过一个 OpenAI 兼容端点控制成本。

除了与编码代理的集成，Brick 还可以作为独立的 OpenAI 兼容网关运行。用户可以通过 Docker 或直接源码运行，任何客户端均可通过标准 API 调用，并设置 model: "brick"。响应头 x-selected-model 会显示实际选择的模型。配置方面，核心是 config.yaml 文件中的 skill_router 块，用户可定义模型池、每个模型的技能向量和成本权重。还可以添加关键词规则进行硬性覆盖或软性偏向，以及调整连续性参数 r 来平衡成本与质量。

Brick 项目是一个单体仓库，包含用 Go 和 Rust 编写的路由服务器、TypeScript 编写的 CLI、训练代码（ModernBERT 能力扫描和复杂性 LoRA 配方）、评估流水线（包含三个评判员多数投票面板）以及论文的 LaTeX 源码。这为研究和实际应用提供了完整的工具链。Brick 的架构包括用 Go 编写的 HTTP 代理和用 Rust 实现的 ML 嵌入（基于 candle）。它支持多模态预处理，包括语音转文字、OCR 和视觉。总之，Brick 为 LLM 路由提供了一个强大而灵活的解决方案，适用于从个人开发者到企业部署的各种场景，通过智能路由大幅降低推理成本，同时保持或提升输出质量。