Boson AI が新しいSoTAオープンソースTTSモデルを公開
Boson AI は、100以上の言語をサポートし、ゼロショット音声クローニングと感情・スタイル制御が可能な4Bパラメータの最先端テキスト音声変換モデル「Higgs Audio v3 TTS」をリリースしました。音声チャット向けに設計されており、研究および非商用利用向けに提供されています。
Boson AI は、音声対話に特化したテキスト音声変換モデル「Higgs Audio v3 TTS」を公開しました。本モデルは単なる読み上げではなく、100以上の言語で表現豊かな対話音声を生成できる点が特徴です。ゼロショット音声クローニングに加え、感情、スタイル、韻律、ポーズ、効果音をインラインで制御可能で、高度なカスタマイズが実現します。
アーキテクチャは約4Bパラメータの自己回帰デコーダをベースとし、マルチコードブック融合埋め込みとヘッドを採用しています。音声はHiggs Tokenizerにより8つのコードブックにエンコードされ、25fpsのフレームレートで遅延パターンにより処理されます。テキストと音声のトークンがインターリーブされ、デコーダに入力されます。サンプリングレートは24kHz、コンテキスト長は8192トークンです。
性能面では、102言語で一桁のWER/CERを達成し、そのうち85言語では5%未満のエラー率を記録、実用レベルと評価されています。対応言語は英語、中国語、日本語、韓国語、アラビア語、ヒンディー語、ドイツ語、フランス語など多岐にわたります。
本モデルは研究および非商用利用ライセンスで提供され、同意なき音声クローニング、なりすまし、詐欺、選挙不正、生体認証監視などの使用は禁止されています。商用利用やAPIホスティングには別途商用ライセンスが必要です。このリリースにより、音声エージェントやインタラクティブな音声アプリケーションの開発が促進されることが期待されます。