一个机器人向你冲来:你希望它搭载Claude还是Grok?
OpenRouter的Jacky Liang进行了一项实验,将11个大型语言模型投入2D大逃杀游戏,观察它们的表现。Grok 4.1 Fast以43%的胜率夺冠,每场胜利仅花费0.97美元;而Claude Sonnet 4.6虽更受欢迎,但每胜成本高达26.78美元。实验揭示了模型对齐成本对性能的影响,以及成本效益与原始胜率之间的巨大差异。
- Grok 4.1 Fast在30场比赛中赢得13场,每胜成本仅0.97美元,是最具成本效益的模型。
- Claude Sonnet 4.6表现出过度合作倾向,尽管赢得5场,但成本是Grok的27.7倍。
一个机器人向你冲来:你希望它运行Claude还是Grok?
本文通过一场2D大逃杀游戏实验,比较了11个大型语言模型的表现。结果显示,Grok 4.1 Fast以最低成本赢得最多比赛,而Claude Sonnet 4.6则因过度合作而表现不佳。实验揭示了校准税对模型性能的影响,以及传统基准测试无法预测实际任务表现的问题。
- Grok 4.1 Fast以每胜0.97美元的成本赢得了30场比赛中的13场。
- Claude Sonnet 4.6因倾向于合作和分享信息,仅赢得5场,每胜成本高达26.78美元。
护栏:保护您的代理、数据和成本 | OpenRouter
OpenRouter 推出了工作区护栏功能,这是一套可配置的安全与治理工具,包括预算执行、零数据保留、模型和提供商限制、提示注入防御以及数据丢失预防。护栏可以分配给 API 密钥或团队成员,无需更改代码即可实现精细化管理。
- 预算执行:支持每日、每周或每月的支出限制,每个实体独立计算。
- 零数据保留与模型/提供商限制:一键禁用数据保留端点,或限制为允许列表中的模型/提供商。
OpenRouter 获 1.13 亿美元 B 轮融资
OpenRouter 宣布完成 1.13 亿美元 B 轮融资,由 Alphabet 旗下成长基金 CapitalG 领投,NVIDIA 风投部门 NVentures、ServiceNow、MongoDB、Snowflake、Databricks 等战略投资者参投。该公司周处理量已从 5 万亿令牌增至 25 万亿令牌,服务超过 800 万开发者,覆盖 400 多个模型。资金将用于扩展基础设施、增强企业功能并深化智能路由能力。
- OpenRouter 完成 1.13 亿美元 B 轮融资,由 CapitalG 领投,多家科技巨头旗下风投参与。
- 周处理量增长至 25 万亿令牌,预计年处理量超过 1 万亿令牌。
Agent SDK:在OpenRouter上构建多轮代理工作流
OpenRouter发布@openrouter/agent SDK,这是一个模型无关的TypeScript工具包,支持工具执行、多轮循环、停止条件、流式传输、成本跟踪和工具审批,简化了代理工作流的构建。
- @openrouter/agent SDK封装了代理循环逻辑,支持300+模型。
- 核心功能包括工具执行、多轮循环、可组合停止条件和流式传输。
使用 Agent SDK 构建你自己的代理工具(Harness)| OpenRouter
OpenRouter 推出了两个用于构建代理工具(harness)的技能:create-agent-tui(终端 UI)和 create-headless-agent(无头代理)。两者都能生成完整的 TypeScript 项目,利用 Agent SDK 提供可定制功能,并可与任何 OpenRouter 模型集成。这些技能提供了精细控制、最小化部署和教育价值。主要特性包括交互式清单、可定制的 UI、会话持久化、安全重试和结构化输出。
- OpenRouter 发布两个技能:create-agent-tui(终端界面)和 create-headless-agent(无界面代理),用于搭建代理工具。
- 它们基于 Agent SDK,自动处理代理循环、工具调用、流式输出和成本跟踪。
Opus 4.7 新分词器实际成本分析 | OpenRouter
Anthropic 为 Claude Opus 4.7 引入新分词器,导致相同输入消耗更多 token,成本增加 12-27%。OpenRouter 基于百万级请求分析发现,长提示词的成本上涨被缓存部分抵消,短提示词因输出缩短反而更便宜。
- Opus 4.7 新分词器使 token 数增加 32-45%,但缓存吸收大部分膨胀,尤其长提示词。
- 实际每百万 token 成本增加 12-27%(提示词 >2K),短提示词成本下降 1.6%。
四月版本亮点 | OpenRouter
OpenRouter 发布了四月重大更新:视频生成功能、多项目隔离的工作区、以及可将任何模型转化为智能体的 TypeScript SDK。此外还包括重排序模型、模型融合、提示历史记录、基准测试、知识截止日期等功能,以及 GPT-5.5、DeepSeek V4 Pro 等前沿模型的上线。
- 视频生成:支持 Seedance 2.0、Veo 3.1、Wan 2.7、Sora 2 Pro 等模型,统一 API 管理视频生成任务。
- 工作区:为多项目开发者和企业团队提供环境隔离,每个工作区拥有独立的 API 密钥、路由默认值、护栏和可观测性。
响应缓存:相同请求零成本 | OpenRouter
OpenRouter 推出响应缓存功能,允许开发者缓存相同的 API 请求,以毫秒级响应返回结果且不计费。缓存位于供应商之前,对请求细节进行哈希处理。支持流式和非流式,适用于多种端点,并提供 TTL 控制和缓存清除等功能。适用于代理重试、测试套件和重复提示等场景。
- 添加 X-OpenRouter-Cache: true 头以缓存相同请求;首次调用正常计费,后续调用免费。
- 缓存响应在 80-300 毫秒内返回(缓存查找约 4 毫秒),而典型未缓存请求需要数秒。
OpenRouter 推出新的语音和转录音频 API
OpenRouter 新增两个专用音频端点:文本转语音和语音转文本,提供更快速、更经济的模型选择,支持 OpenAI、Google、Mistral 等供应商。
- 新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端点。
- 语音模型支持 GPT-4o Mini TTS、Gemini Flash TTS、Voxtral Mini TTS。
Agent SDK 的人机协同工具 | OpenRouter
OpenRouter 的 Agent SDK 新增第四种工具类型:人机协同 (HITL) 工具。通过一个钩子函数,代理可以自动处理常规调用,在高风险场景下暂停等待人类介入,支持按每次调用自动解决或升级。
- HITL 工具通过 onToolCalled 钩子检查输入,返回值则继续,返回 null 则暂停等待人工决策。
- 可选的 onResponseReceived 钩子在人工响应后转换结果,支持元数据标记、格式规范化和业务规则验证。