OpenRouter 推出新的語音和轉錄音頻 API
OpenRouter 新增兩個專用音頻端點:文本轉語音和語音轉文本,提供更快速、更經濟的模型選擇,支持 OpenAI、Google、Mistral 等供應商。
文章情報
要點
- 新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端點。
- 語音模型支持 GPT-4o Mini TTS、Gemini Flash TTS、Voxtral Mini TTS。
- 轉錄模型支持 Whisper、GPT-4o Transcribe、Chirp 3 等。
- 可通過 Playground 試用,並提供快速入門代碼。
為甚麼重要
這條新聞值得關注,因為新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端點。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
OpenRouter 於 2026 年 5 月 1 日宣佈推出兩個全新的專用音頻 API 端點:/api/v1/audio/speech 用於文本轉語音,以及 /api/v1/audio/transcriptions 用於語音轉文本。這些端點提供了專門優化的模型,相比通用音頻模型更加快速和經濟高效,適用於特定的音頻任務。
用户現在可以通過 OpenAI、Google 或 Mistral 的語音模型從文本生成語音,並使用 OpenAI Whisper 等模型轉錄音頻文件。所有操作均沿用與文本、視頻和圖像生成相同的路由、計費和密鑰管理機制。
模型選擇方面,OpenRouter 提供了音頻模型、語音模型和轉錄模型三類。語音模型擅長將文本轉換為逼真的口語,適合朗讀和流式輸出;轉錄模型專注於將音頻轉換為文本,適用於會議記錄、字幕等場景;而音頻模型則能理解音頻輸入並進行推理,適合語音助手和多模態對話。用户可根據具體需求在性能、成本和速度之間做出平衡。
語音端點接收文本並返回原始音頻字節流,可直接保存為文件或播放。當前支持的供應商包括 OpenAI(GPT-4o Mini TTS)、Google(Gemini Flash TTS)和 Mistral(Voxtral Mini TTS),每種模型提供不同的語音選擇,輸出格式支持 MP3 或 PCM。供應商特有選項也能順利傳遞,例如 OpenAI 支持通過 instructions 字段控制語調。
轉錄端點接收 base64 編碼的音頻文件,返回文本,支持 WAV、MP3、FLAC 等常見格式。當前支持的供應商包括 OpenAI(Whisper、GPT-4o Transcribe、GPT-4o Mini Transcribe)、Google(Chirp 3)和 Groq(快速 Whisper 推理)。用户可選擇提供語言提示以提高非英語音頻的準確度。
OpenRouter 已在 Playground 中為語音和轉錄模型提供了專用標籤頁,方便用户直接體驗。每個模型頁面還提供了 Python、TypeScript、curl 和 OpenRouter SDK 的快速入門代碼,幫助開發者快速集成。未來 OpenRouter 計劃增加更多供應商和語音選項,並邀請用户通過 Discord 提出需求。