OpenRouter 推出新的語音和轉錄音訊 API
OpenRouter 新增兩個專用音訊端點:文本轉語音和語音轉文本,提供更快速、更經濟的模型選擇,支援 OpenAI、Google、Mistral 等供應商。
文章情報
要點
- 新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端點。
- 語音模型支援 GPT-4o Mini TTS、Gemini Flash TTS、Voxtral Mini TTS。
- 轉錄模型支援 Whisper、GPT-4o Transcribe、Chirp 3 等。
- 可透過 Playground 試用,並提供快速入門程式碼。
為什麼重要
這條新聞值得關注,因為新增 /api/v1/audio/speech 和 /api/v1/audio/transcriptions 端點。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
OpenRouter 於 2026 年 5 月 1 日宣佈推出兩個全新的專用音訊 API 端點:/api/v1/audio/speech 用於文本轉語音,以及 /api/v1/audio/transcriptions 用於語音轉文本。這些端點提供了專門最佳化的模型,相比通用音訊模型更加快速和經濟高效,適用於特定的音訊任務。
使用者現在可以透過 OpenAI、Google 或 Mistral 的語音模型從文本生成語音,並使用 OpenAI Whisper 等模型轉錄音訊檔案。所有操作均沿用與文本、影片和影像生成相同的路由、計費和金鑰管理機制。
模型選擇方面,OpenRouter 提供了音訊模型、語音模型和轉錄模型三類。語音模型擅長將文本轉換為逼真的口語,適合朗讀和流式輸出;轉錄模型專注於將音訊轉換為文本,適用於會議記錄、字幕等場景;而音訊模型則能理解音訊輸入並進行推理,適合語音助手和多模態對話。使用者可根據具體需求在效能、成本和速度之間做出平衡。
語音端點接收文本並返回原始音訊位元組流,可直接儲存為檔案或播放。當前支援的供應商包括 OpenAI(GPT-4o Mini TTS)、Google(Gemini Flash TTS)和 Mistral(Voxtral Mini TTS),每種模型提供不同的語音選擇,輸出格式支援 MP3 或 PCM。供應商特有選項也能順利傳遞,例如 OpenAI 支援透過 instructions 欄位控制語調。
轉錄端點接收 base64 編碼的音訊檔案,返回文本,支援 WAV、MP3、FLAC 等常見格式。當前支援的供應商包括 OpenAI(Whisper、GPT-4o Transcribe、GPT-4o Mini Transcribe)、Google(Chirp 3)和 Groq(快速 Whisper 推理)。使用者可選擇提供語言提示以提高非英語音訊的準確度。
OpenRouter 已在 Playground 中為語音和轉錄模型提供了專用標籤頁,方便使用者直接體驗。每個模型頁面還提供了 Python、TypeScript、curl 和 OpenRouter SDK 的快速入門程式碼,幫助開發者快速整合。未來 OpenRouter 計劃增加更多供應商和語音選項,並邀請使用者透過 Discord 提出需求。