2026-05-15站内改写

OpenRouter 推出新的語音和轉錄音訊 API

OpenRouter 新增兩個專用音訊端點：文本轉語音和語音轉文本，提供更快速、更經濟的模型選擇，支援 OpenAI、Google、Mistral 等供應商。

文章情報

工程師中級

要點

新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端點。
語音模型支援 GPT-4o Mini TTS、Gemini Flash TTS、Voxtral Mini TTS。
轉錄模型支援 Whisper、GPT-4o Transcribe、Chirp 3 等。
可透過 Playground 試用，並提供快速入門程式碼。

為什麼重要

這條新聞值得關注，因為新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端點。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

OpenRouter 於 2026 年 5 月 1 日宣佈推出兩個全新的專用音訊 API 端點：/api/v1/audio/speech 用於文本轉語音，以及 /api/v1/audio/transcriptions 用於語音轉文本。這些端點提供了專門最佳化的模型，相比通用音訊模型更加快速和經濟高效，適用於特定的音訊任務。

使用者現在可以透過 OpenAI、Google 或 Mistral 的語音模型從文本生成語音，並使用 OpenAI Whisper 等模型轉錄音訊檔案。所有操作均沿用與文本、影片和影像生成相同的路由、計費和金鑰管理機制。

模型選擇方面，OpenRouter 提供了音訊模型、語音模型和轉錄模型三類。語音模型擅長將文本轉換為逼真的口語，適合朗讀和流式輸出；轉錄模型專注於將音訊轉換為文本，適用於會議記錄、字幕等場景；而音訊模型則能理解音訊輸入並進行推理，適合語音助手和多模態對話。使用者可根據具體需求在效能、成本和速度之間做出平衡。

語音端點接收文本並返回原始音訊位元組流，可直接儲存為檔案或播放。當前支援的供應商包括 OpenAI（GPT-4o Mini TTS）、Google（Gemini Flash TTS）和 Mistral（Voxtral Mini TTS），每種模型提供不同的語音選擇，輸出格式支援 MP3 或 PCM。供應商特有選項也能順利傳遞，例如 OpenAI 支援透過 instructions 欄位控制語調。

轉錄端點接收 base64 編碼的音訊檔案，返回文本，支援 WAV、MP3、FLAC 等常見格式。當前支援的供應商包括 OpenAI（Whisper、GPT-4o Transcribe、GPT-4o Mini Transcribe）、Google（Chirp 3）和 Groq（快速 Whisper 推理）。使用者可選擇提供語言提示以提高非英語音訊的準確度。

OpenRouter 已在 Playground 中為語音和轉錄模型提供了專用標籤頁，方便使用者直接體驗。每個模型頁面還提供了 Python、TypeScript、curl 和 OpenRouter SDK 的快速入門程式碼，幫助開發者快速整合。未來 OpenRouter 計劃增加更多供應商和語音選項，並邀請使用者透過 Discord 提出需求。