ボイスファインダー — 600以上のボイスからアプリに最適な声を素早く見つける新ツール
ボイスファインダーは、自然言語プロンプトやアップロードした音声サンプルを使用して、Together AIのTTSモデルが提供する600以上のボイスを検索、マッチ、フィルタリング、試聴できるツールです。
Together AI は本日、開発者が600以上の音声からアプリケーションに最適な声を迅速に選択できる新ツール「ボイスファインダー」を発表しました。本ツールは、MiniMax、Cartesia、Deepgram、Rime などの主要なTTSモデルが提供する音声を統合し、自然言語によるプロンプトや音声サンプルのアップロードを通じて検索・マッチング・試聴を可能にします。
ボイスファインダーの中核には、各音声を15以上の属性(ピッチ、性別、アクセント、言語、年齢、感情、話し方など)で構造化したメタデータを生成するオムニモデルが搭載されています。このメタデータにより、自然言語検索と手動フィルタリングの両方を柔軟に組み合わせられます。例えば、「瞑想アプリ向けの落ち着いた女性の声」や「フィンテックサポート向けの自信のある声」といったテキスト記述、あるいは短い音声サンプルをアップロードするだけで、ランク付けされた推奨結果を即座に取得し、その場で試聴できます。
音声エージェントの開発において、適切な声の選択はモデルの品質と同様に重要です。医療受付、レストラン注文、エンターテインメントなど、用途に応じて求められる声質は大きく異なります。従来はプロバイダーのカタログを手作業で確認する必要がありましたが、ボイスファインダーはこのプロセスを劇的に効率化します。
Together AI は、音声認識(STT)、大規模言語モデル(LLM)、テキスト読み上げ(TTS)を同一クラウド上でシームレスに連携させ、エンドツーエンドのレイテンシを500ミリ秒未満に抑えたリアルタイム音声エージェント構築プラットフォームを提供しています。ボイスファインダーはこのプラットフォームの一部として、音声選択の工程を簡素化し、開発のスピードを向上させます。
開発者は findtherightvoice.com からボイスファインダーを試用でき、さらに Together AI の音声プラットフォームやドキュメントを参照することができます。エンタープライズ向けの専用エンドポイントやプロダクション環境でのデプロイについては、営業チームまでお問い合わせください。