一個機器人向你衝來:你希望它搭載Claude還是Grok?
OpenRouter的Jacky Liang進行了一項實驗,將11個大型語言模型投入2D大逃殺遊戲,觀察它們的表現。Grok 4.1 Fast以43%的勝率奪冠,每場勝利僅花費0.97美元;而Claude Sonnet 4.6雖更受歡迎,但每勝成本高達26.78美元。實驗揭示了模型對齊成本對效能的影響,以及成本效益與原始勝率之間的巨大差異。
- Grok 4.1 Fast在30場比賽中贏得13場,每勝成本僅0.97美元,是最具成本效益的模型。
- Claude Sonnet 4.6表現出過度合作傾向,儘管贏得5場,但成本是Grok的27.7倍。
一個機器人向你衝來:你希望它執行Claude還是Grok?
本文透過一場2D大逃殺遊戲實驗,比較了11個大型語言模型的表現。結果顯示,Grok 4.1 Fast以最低成本贏得最多比賽,而Claude Sonnet 4.6則因過度合作而表現不佳。實驗揭示了校準稅對模型效能的影響,以及傳統基準測試無法預測實際任務表現的問題。
- Grok 4.1 Fast以每勝0.97美元的成本贏得了30場比賽中的13場。
- Claude Sonnet 4.6因傾向於合作和分享資訊,僅贏得5場,每勝成本高達26.78美元。
護欄:保護您的代理、資料和成本 | OpenRouter
OpenRouter 推出了工作區護欄功能,這是一套可配置的安全與治理工具,包括預算執行、零資料保留、模型和提供商限制、提示注入防禦以及資料丟失預防。護欄可以分配給 API 金鑰或團隊成員,無需更改程式碼即可實現精細化管理。
- 預算執行:支援每日、每週或每月的支出限制,每個實體獨立計算。
- 零資料保留與模型/提供商限制:一鍵停用資料保留端點,或限制為允許列表中的模型/提供商。
OpenRouter 獲 1.13 億美元 B 輪融資
OpenRouter 宣佈完成 1.13 億美元 B 輪融資,由 Alphabet 旗下成長基金 CapitalG 領投,NVIDIA 風投部門 NVentures、ServiceNow、MongoDB、Snowflake、Databricks 等戰略投資者參投。該公司周處理量已從 5 萬億令牌增至 25 萬億令牌,服務超過 800 萬開發者,覆蓋 400 多個模型。資金將用於擴充套件基礎設施、增強企業功能並深化智慧路由能力。
- OpenRouter 完成 1.13 億美元 B 輪融資,由 CapitalG 領投,多家科技巨頭旗下風投參與。
- 周處理量增長至 25 萬億令牌,預計年處理量超過 1 萬億令牌。
Agent SDK:在OpenRouter上構建多輪代理工作流
OpenRouter釋出@openrouter/agent SDK,這是一個模型無關的TypeScript工具包,支援工具執行、多輪迴圈、停止條件、流式傳輸、成本跟蹤和工具審批,簡化了代理工作流的構建。
- @openrouter/agent SDK封裝了代理迴圈邏輯,支援300+模型。
- 核心功能包括工具執行、多輪迴圈、可組合停止條件和流式傳輸。
使用 Agent SDK 構建你自己的代理工具(Harness)| OpenRouter
OpenRouter 推出了兩個用於構建代理工具(harness)的技能:create-agent-tui(終端 UI)和 create-headless-agent(無頭代理)。兩者都能生成完整的 TypeScript 專案,利用 Agent SDK 提供可定製功能,並可與任何 OpenRouter 模型整合。這些技能提供了精細控制、最小化部署和教育價值。主要特性包括互動式清單、可定製的 UI、會話持久化、安全重試和結構化輸出。
- OpenRouter 釋出兩個技能:create-agent-tui(終端介面)和 create-headless-agent(無介面代理),用於搭建代理工具。
- 它們基於 Agent SDK,自動處理代理迴圈、工具呼叫、流式輸出和成本跟蹤。
Opus 4.7 新分詞器實際成本分析 | OpenRouter
Anthropic 為 Claude Opus 4.7 引入新分詞器,導致相同輸入消耗更多 token,成本增加 12-27%。OpenRouter 基於百萬級請求分析發現,長提示詞的成本上漲被快取部分抵消,短提示詞因輸出縮短反而更便宜。
- Opus 4.7 新分詞器使 token 數增加 32-45%,但快取吸收大部分膨脹,尤其長提示詞。
- 實際每百萬 token 成本增加 12-27%(提示詞 >2K),短提示詞成本下降 1.6%。
四月版本亮點 | OpenRouter
OpenRouter 釋出了四月重大更新:影片生成功能、多專案隔離的工作區、以及可將任何模型轉化為智慧體的 TypeScript SDK。此外還包括重排序模型、模型融合、提示歷史記錄、基準測試、知識截止日期等功能,以及 GPT-5.5、DeepSeek V4 Pro 等前沿模型的上線。
- 影片生成:支援 Seedance 2.0、Veo 3.1、Wan 2.7、Sora 2 Pro 等模型,統一 API 管理影片生成任務。
- 工作區:為多專案開發者和企業團隊提供環境隔離,每個工作區擁有獨立的 API 金鑰、路由預設值、護欄和可觀測性。
響應快取:相同請求零成本 | OpenRouter
OpenRouter 推出響應快取功能,允許開發者快取相同的 API 請求,以毫秒級響應返回結果且不計費。快取位於供應商之前,對請求細節進行雜湊處理。支援流式和非流式,適用於多種端點,並提供 TTL 控制和快取清除等功能。適用於代理重試、測試套件和重複提示等場景。
- 新增 X-OpenRouter-Cache: true 頭以快取相同請求;首次呼叫正常計費,後續呼叫免費。
- 快取響應在 80-300 毫秒內返回(快取查詢約 4 毫秒),而典型未快取請求需要數秒。
OpenRouter 推出新的語音和轉錄音訊 API
OpenRouter 新增兩個專用音訊端點:文本轉語音和語音轉文本,提供更快速、更經濟的模型選擇,支援 OpenAI、Google、Mistral 等供應商。
- 新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端點。
- 語音模型支援 GPT-4o Mini TTS、Gemini Flash TTS、Voxtral Mini TTS。
Agent SDK 的人機協同工具 | OpenRouter
OpenRouter 的 Agent SDK 新增第四種工具型別:人機協同 (HITL) 工具。透過一個鉤子函式,代理可以自動處理常規呼叫,在高風險場景下暫停等待人類介入,支援按每次呼叫自動解決或升級。
- HITL 工具透過 onToolCalled 鉤子檢查輸入,返回值則繼續,返回 null 則暫停等待人工決策。
- 可選的 onResponseReceived 鉤子在人工響應後轉換結果,支援後設資料標記、格式規範化和業務規則驗證。