Opus 4.7 新分词器实际成本分析 | OpenRouter
Anthropic 为 Claude Opus 4.7 引入新分词器,导致相同输入消耗更多 token,成本增加 12-27%。OpenRouter 基于百万级请求分析发现,长提示词的成本上涨被缓存部分抵消,短提示词因输出缩短反而更便宜。
Anthropic 在 Claude Opus 4.7 中引入了新分词器,官方声称 token 膨胀范围为 1.0–1.35 倍,取决于内容类型。尽管模型定价未变,但用户实际支付成本将发生变化。OpenRouter 分析了其平台上从 Opus 4.6 切换到 4.7 的用户数据,基于超过一百万条请求,揭示了真实成本影响。
为了隔离分词器变化的影响,OpenRouter 采用自有的 QuadChars 分词器作为基准。QuadChars 是一种轻量、与模型无关的字符计数方法,每 4 个可打印 ASCII 字符计为一个 token,每个非 ASCII 字符独立计为 token。通过比较同一批用户在使用 Opus 4.6 和 4.7 时的原生 token 与 QuadChars token 比率,可以准确衡量分词器带来的通胀。
研究显示,对于 10K token 以上的生产级提示词,Opus 4.7 分词器产生的原生 token 比 4.6 多 32–34%;短提示词的通胀更高,达 42–45%。但提示缓存(caching)吸收了大部分通胀——缓存 token 享有 90% 折扣。对于 128K+ 的极长提示词,93% 的额外 token 落入缓存,极大降低了成本影响。
在输出长度方面,Opus 4.7 对短查询(<2K token)更简洁,输出 token 中位数减少 62%;而在长上下文(10K+)中,输出 token 中位数增加 13–30%。这种变化与分词器共同作用,最终成本影响如下:2K–10K 提示词成本增加 27.2%;25K–50K 增加 21.3%;128K+ 增加 15.3%;而 <2K 提示词成本下降 1.6%,因为输出大幅缩短完全抵消了分词器通胀。
综上所述,Opus 4.7 对于长提示词用户的实际成本上升在 12–27% 之间,但缓存策略和更高效的短提示词输出为部分用户带来了好处。OpenRouter 表示将继续监测模型变化对成本的影响。