AI News HubLIVE
站内改写2 分钟阅读

利用智能路由节省Claude Code Tokens

Brick是一个混合模型路由网关,通过分析每个提示的能力和复杂性,将其路由到最合适的模型,从而在保持质量的同时大幅降低成本。支持Claude Code、Codex等,提供5种模式调节成本/质量平衡。

来源Hacker News AI作者: FrancescoMassa

Brick 是一个创新的 Mixture-of-Models (MoM) 路由网关,旨在解决多模型部署中的成本与质量平衡问题。它通过分析每个提示在六个能力维度(编码、创意合成、指令遵循、数学推理、规划代理、世界知识)上的需求和复杂性,将请求智能路由到最合适的后端模型,无论是开源还是闭源模型。与级联路由器不同,Brick 采用单次前向决策,避免了多次调用造成的令牌浪费和延迟。这使得它能够匹配最强单一模型的质量,同时成本大大降低。

Brick 的典型使用场景包括:拥有多个模型并希望为每个查询分配最佳模型;希望通过在 Claude Code 或 Codex 前放置 Brick 来降低成本而不牺牲质量;以及希望统一不同模型到单一工具中。通过简单的 CLI 命令 brick claude on,即可启动本地路由服务器并自动配置环境变量。用户随后可以在 Claude Code 的模型选择器中选择 brick-claude,每个请求将根据能力和复杂度路由到 haiku、sonnet 或 opus。Brick 提供了五种模式(eco、lite、mid、pro、max),用户可通过思考努力滑块直接切换,从而精细控制成本与质量的权衡。当选择原生模型时,Brick 被绕过去,直接调用所选模型。

在可观测性方面,Brick 提供了实时仪表盘,显示按模型路由的数量和百分比、每个模型的努力分布、难度混合情况以及相较于全使用 opus 的预估节省百分比。它还显示连接状态、分类器延迟和回退率。Brick 支持 Claude Code 的工作流和子代理:每个代理的调用独立路由,因此一个廉价子代理任务可以落在 haiku 上,而困难任务升级到 opus,在同一个运行中。对于 OpenAI Codex,Brick 提供了相同的集成方式,使开发者能够在保持 Codex 界面一致的同时,使用非 OpenAI 模型并通过一个 OpenAI 兼容端点控制成本。

除了与编码代理的集成,Brick 还可以作为独立的 OpenAI 兼容网关运行。用户可以通过 Docker 或直接源码运行,任何客户端均可通过标准 API 调用,并设置 model: "brick"。响应头 x-selected-model 会显示实际选择的模型。配置方面,核心是 config.yaml 文件中的 skill_router 块,用户可定义模型池、每个模型的技能向量和成本权重。还可以添加关键词规则进行硬性覆盖或软性偏向,以及调整连续性参数 r 来平衡成本与质量。

Brick 项目是一个单体仓库,包含用 Go 和 Rust 编写的路由服务器、TypeScript 编写的 CLI、训练代码(ModernBERT 能力扫描和复杂性 LoRA 配方)、评估流水线(包含三个评判员多数投票面板)以及论文的 LaTeX 源码。这为研究和实际应用提供了完整的工具链。Brick 的架构包括用 Go 编写的 HTTP 代理和用 Rust 实现的 ML 嵌入(基于 candle)。它支持多模态预处理,包括语音转文字、OCR 和视觉。总之,Brick 为 LLM 路由提供了一个强大而灵活的解决方案,适用于从个人开发者到企业部署的各种场景,通过智能路由大幅降低推理成本,同时保持或提升输出质量。