2026-05-15站内改写

OpenRouter 推出新的語音和轉錄音頻 API

OpenRouter 新增兩個專用音頻端點：文本轉語音和語音轉文本，提供更快速、更經濟的模型選擇，支持 OpenAI、Google、Mistral 等供應商。

文章情報

工程師中級

要點

新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端點。
語音模型支持 GPT-4o Mini TTS、Gemini Flash TTS、Voxtral Mini TTS。
轉錄模型支持 Whisper、GPT-4o Transcribe、Chirp 3 等。
可通過 Playground 試用，並提供快速入門代碼。

為甚麼重要

這條新聞值得關注，因為新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端點。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

OpenRouter 於 2026 年 5 月 1 日宣佈推出兩個全新的專用音頻 API 端點：/api/v1/audio/speech 用於文本轉語音，以及 /api/v1/audio/transcriptions 用於語音轉文本。這些端點提供了專門優化的模型，相比通用音頻模型更加快速和經濟高效，適用於特定的音頻任務。

用户現在可以通過 OpenAI、Google 或 Mistral 的語音模型從文本生成語音，並使用 OpenAI Whisper 等模型轉錄音頻文件。所有操作均沿用與文本、視頻和圖像生成相同的路由、計費和密鑰管理機制。

模型選擇方面，OpenRouter 提供了音頻模型、語音模型和轉錄模型三類。語音模型擅長將文本轉換為逼真的口語，適合朗讀和流式輸出；轉錄模型專注於將音頻轉換為文本，適用於會議記錄、字幕等場景；而音頻模型則能理解音頻輸入並進行推理，適合語音助手和多模態對話。用户可根據具體需求在性能、成本和速度之間做出平衡。

語音端點接收文本並返回原始音頻字節流，可直接保存為文件或播放。當前支持的供應商包括 OpenAI（GPT-4o Mini TTS）、Google（Gemini Flash TTS）和 Mistral（Voxtral Mini TTS），每種模型提供不同的語音選擇，輸出格式支持 MP3 或 PCM。供應商特有選項也能順利傳遞，例如 OpenAI 支持通過 instructions 字段控制語調。

轉錄端點接收 base64 編碼的音頻文件，返回文本，支持 WAV、MP3、FLAC 等常見格式。當前支持的供應商包括 OpenAI（Whisper、GPT-4o Transcribe、GPT-4o Mini Transcribe）、Google（Chirp 3）和 Groq（快速 Whisper 推理）。用户可選擇提供語言提示以提高非英語音頻的準確度。

OpenRouter 已在 Playground 中為語音和轉錄模型提供了專用標籤頁，方便用户直接體驗。每個模型頁面還提供了 Python、TypeScript、curl 和 OpenRouter SDK 的快速入門代碼，幫助開發者快速集成。未來 OpenRouter 計劃增加更多供應商和語音選項，並邀請用户通過 Discord 提出需求。