AI News HubLIVE
站内改写

OpenRouter 推出新的语音和转录音频 API

OpenRouter 新增两个专用音频端点:文本转语音和语音转文本,提供更快速、更经济的模型选择,支持 OpenAI、Google、Mistral 等供应商。

文章情报

工程师中级

要点

  • 新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端点。
  • 语音模型支持 GPT-4o Mini TTS、Gemini Flash TTS、Voxtral Mini TTS。
  • 转录模型支持 Whisper、GPT-4o Transcribe、Chirp 3 等。
  • 可通过 Playground 试用,并提供快速入门代码。

为什么重要

这条新闻值得关注,因为新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端点。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

OpenRouter 于 2026 年 5 月 1 日宣布推出两个全新的专用音频 API 端点:/api/v1/audio/speech 用于文本转语音,以及 /api/v1/audio/transcriptions 用于语音转文本。这些端点提供了专门优化的模型,相比通用音频模型更加快速和经济高效,适用于特定的音频任务。

用户现在可以通过 OpenAI、Google 或 Mistral 的语音模型从文本生成语音,并使用 OpenAI Whisper 等模型转录音频文件。所有操作均沿用与文本、视频和图像生成相同的路由、计费和密钥管理机制。

模型选择方面,OpenRouter 提供了音频模型、语音模型和转录模型三类。语音模型擅长将文本转换为逼真的口语,适合朗读和流式输出;转录模型专注于将音频转换为文本,适用于会议记录、字幕等场景;而音频模型则能理解音频输入并进行推理,适合语音助手和多模态对话。用户可根据具体需求在性能、成本和速度之间做出平衡。

语音端点接收文本并返回原始音频字节流,可直接保存为文件或播放。当前支持的供应商包括 OpenAI(GPT-4o Mini TTS)、Google(Gemini Flash TTS)和 Mistral(Voxtral Mini TTS),每种模型提供不同的语音选择,输出格式支持 MP3 或 PCM。供应商特有选项也能顺利传递,例如 OpenAI 支持通过 instructions 字段控制语调。

转录端点接收 base64 编码的音频文件,返回文本,支持 WAV、MP3、FLAC 等常见格式。当前支持的供应商包括 OpenAI(Whisper、GPT-4o Transcribe、GPT-4o Mini Transcribe)、Google(Chirp 3)和 Groq(快速 Whisper 推理)。用户可选择提供语言提示以提高非英语音频的准确度。

OpenRouter 已在 Playground 中为语音和转录模型提供了专用标签页,方便用户直接体验。每个模型页面还提供了 Python、TypeScript、curl 和 OpenRouter SDK 的快速入门代码,帮助开发者快速集成。未来 OpenRouter 计划增加更多供应商和语音选项,并邀请用户通过 Discord 提出需求。