2026-05-15站内改写

OpenRouterが音声認識とテキスト読み上げの新APIを発表

OpenRouterは、テキスト読み上げと音声認識の専用エンドポイントを追加し、OpenAI、Google、Mistralなどのモデルをより高速かつ低コストで提供します。

記事インテリジェンス

エンジニア中級

要点

新しいエンドポイント /api/v1/audio/speech と /api/v1/audio/transcriptions。
音声モデル：GPT-4o Mini TTS、Gemini Flash TTS、Voxtral Mini TTS。
文字起こしモデル：Whisper、GPT-4o Transcribe、Chirp 3など。
Playgroundで試せ、クイックスタートコードも提供。

重要な理由

このニュースが重要なのは、新しいエンドポイント /api/v1/audio/speech と /api/v1/audio/transcriptionsためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

OpenRouterは2026年5月1日、テキスト読み上げ用の /api/v1/audio/speech と音声認識用の /api/v1/audio/transcriptions という2つの専用オーディオAPIエンドポイントを発表しました。これらのエンドポイントは、既存の汎用オーディオモデルよりも高速でコスト効率の高い特殊モデルを提供し、特定のオーディオタスクに最適化されています。

ユーザーはOpenAI、Google、Mistralの音声モデルを使ってテキストから音声を生成したり、OpenAI Whisperなどのモデルで音声ファイルを文字起こししたりできます。すべての操作は、テキスト、ビデオ、画像生成と同じルーティング、課金、キー管理システムで行われます。

モデルの選択肢として、オーディオモデル、音声モデル、文字起こしモデルの3種類があります。音声モデルはテキストを自然な音声に変換するのに適しており、読み上げやストリーミング出力に最適です。文字起こしモデルは音声をテキストに変換し、会議の議事録や字幕作成に役立ちます。オーディオモデルは音声入力を理解し推論できるため、音声エージェントやマルチモーダルな対話に適しています。

音声エンドポイントはテキストを受け取り、生のオーディオバイトストリームを返します。現在サポートされているプロバイダーはOpenAI（GPT-4o Mini TTS）、Google（Gemini Flash TTS）、Mistral（Voxtral Mini TTS）で、各モデルには独自の音声セットがあり、出力形式はMP3またはPCMです。プロバイダー固有のオプションもそのまま利用でき、例えばOpenAIではinstructionsフィールドでトーンを制御できます。

文字起こしエンドポイントはbase64エンコードされた音声ファイルを受け取り、テキストを返します。WAV、MP3、FLACなどの一般的な形式に対応しています。現在サポートされているプロバイダーはOpenAI（Whisper、GPT-4o Transcribe、GPT-4o Mini Transcribe）、Google（Chirp 3）、Groq（高速Whisper推論）です。オプションで言語ヒントを指定すると、非英語音声の精度が向上します。

OpenRouterはPlaygroundで音声モデルと文字起こしモデル専用のタブを提供しており、すぐに試せます。各モデルページにはPython、TypeScript、curl、OpenRouter SDKのクイックスタートコードも用意されており、数分でアプリに統合できます。今後さらに多くのプロバイダーと音声を追加する予定で、要望があればDiscordで連络してほしいとしています。