AI News HubLIVE
站内改写

OpenRouterが音声認識とテキスト読み上げの新APIを発表

OpenRouterは、テキスト読み上げと音声認識の専用エンドポイントを追加し、OpenAI、Google、Mistralなどのモデルをより高速かつ低コストで提供します。

記事インテリジェンス

エンジニア中級

要点

  • 新しいエンドポイント /api/v1/audio/speech と /api/v1/audio/transcriptions。
  • 音声モデル:GPT-4o Mini TTS、Gemini Flash TTS、Voxtral Mini TTS。
  • 文字起こしモデル:Whisper、GPT-4o Transcribe、Chirp 3など。
  • Playgroundで試せ、クイックスタートコードも提供。

重要な理由

このニュースが重要なのは、新しいエンドポイント /api/v1/audio/speech と /api/v1/audio/transcriptionsためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

OpenRouterは2026年5月1日、テキスト読み上げ用の /api/v1/audio/speech と音声認識用の /api/v1/audio/transcriptions という2つの専用オーディオAPIエンドポイントを発表しました。これらのエンドポイントは、既存の汎用オーディオモデルよりも高速でコスト効率の高い特殊モデルを提供し、特定のオーディオタスクに最適化されています。

ユーザーはOpenAI、Google、Mistralの音声モデルを使ってテキストから音声を生成したり、OpenAI Whisperなどのモデルで音声ファイルを文字起こししたりできます。すべての操作は、テキスト、ビデオ、画像生成と同じルーティング、課金、キー管理システムで行われます。

モデルの選択肢として、オーディオモデル、音声モデル、文字起こしモデルの3種類があります。音声モデルはテキストを自然な音声に変換するのに適しており、読み上げやストリーミング出力に最適です。文字起こしモデルは音声をテキストに変換し、会議の議事録や字幕作成に役立ちます。オーディオモデルは音声入力を理解し推論できるため、音声エージェントやマルチモーダルな対話に適しています。

音声エンドポイントはテキストを受け取り、生のオーディオバイトストリームを返します。現在サポートされているプロバイダーはOpenAI(GPT-4o Mini TTS)、Google(Gemini Flash TTS)、Mistral(Voxtral Mini TTS)で、各モデルには独自の音声セットがあり、出力形式はMP3またはPCMです。プロバイダー固有のオプションもそのまま利用でき、例えばOpenAIではinstructionsフィールドでトーンを制御できます。

文字起こしエンドポイントはbase64エンコードされた音声ファイルを受け取り、テキストを返します。WAV、MP3、FLACなどの一般的な形式に対応しています。現在サポートされているプロバイダーはOpenAI(Whisper、GPT-4o Transcribe、GPT-4o Mini Transcribe)、Google(Chirp 3)、Groq(高速Whisper推論)です。オプションで言語ヒントを指定すると、非英語音声の精度が向上します。

OpenRouterはPlaygroundで音声モデルと文字起こしモデル専用のタブを提供しており、すぐに試せます。各モデルページにはPython、TypeScript、curl、OpenRouter SDKのクイックスタートコードも用意されており、数分でアプリに統合できます。今後さらに多くのプロバイダーと音声を追加する予定で、要望があればDiscordで連络してほしいとしています。