2026-05-15站内改写

OpenRouter 推出新的语音和转录音频 API

OpenRouter 新增两个专用音频端点：文本转语音和语音转文本，提供更快速、更经济的模型选择，支持 OpenAI、Google、Mistral 等供应商。

文章情报

工程师中级

要点

新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端点。
语音模型支持 GPT-4o Mini TTS、Gemini Flash TTS、Voxtral Mini TTS。
转录模型支持 Whisper、GPT-4o Transcribe、Chirp 3 等。
可通过 Playground 试用，并提供快速入门代码。

为什么重要

这条新闻值得关注，因为新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端点。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

OpenRouter 于 2026 年 5 月 1 日宣布推出两个全新的专用音频 API 端点：/api/v1/audio/speech 用于文本转语音，以及 /api/v1/audio/transcriptions 用于语音转文本。这些端点提供了专门优化的模型，相比通用音频模型更加快速和经济高效，适用于特定的音频任务。

用户现在可以通过 OpenAI、Google 或 Mistral 的语音模型从文本生成语音，并使用 OpenAI Whisper 等模型转录音频文件。所有操作均沿用与文本、视频和图像生成相同的路由、计费和密钥管理机制。

模型选择方面，OpenRouter 提供了音频模型、语音模型和转录模型三类。语音模型擅长将文本转换为逼真的口语，适合朗读和流式输出；转录模型专注于将音频转换为文本，适用于会议记录、字幕等场景；而音频模型则能理解音频输入并进行推理，适合语音助手和多模态对话。用户可根据具体需求在性能、成本和速度之间做出平衡。

语音端点接收文本并返回原始音频字节流，可直接保存为文件或播放。当前支持的供应商包括 OpenAI（GPT-4o Mini TTS）、Google（Gemini Flash TTS）和 Mistral（Voxtral Mini TTS），每种模型提供不同的语音选择，输出格式支持 MP3 或 PCM。供应商特有选项也能顺利传递，例如 OpenAI 支持通过 instructions 字段控制语调。

转录端点接收 base64 编码的音频文件，返回文本，支持 WAV、MP3、FLAC 等常见格式。当前支持的供应商包括 OpenAI（Whisper、GPT-4o Transcribe、GPT-4o Mini Transcribe）、Google（Chirp 3）和 Groq（快速 Whisper 推理）。用户可选择提供语言提示以提高非英语音频的准确度。

OpenRouter 已在 Playground 中为语音和转录模型提供了专用标签页，方便用户直接体验。每个模型页面还提供了 Python、TypeScript、curl 和 OpenRouter SDK 的快速入门代码，帮助开发者快速集成。未来 OpenRouter 计划增加更多供应商和语音选项，并邀请用户通过 Discord 提出需求。