Stability AI、Stable Audio 3を公開:高速潜在拡散モデルによる音声生成と編集
Stability AIは、44.1kHzのステレオ音声を生成・編集する潜在拡散モデルファミリー「Stable Audio 3」を公開しました。スモール、ミディアム、ラージの3つのスケールがあり、スモールとミディアムはオープンウェイトで提供されます。主な技術革新には、高圧縮SAMEオートエンコーダー、可変長生成、およびフローマッチング、蒸留、敵対的事後学習を組み合わせた3段階トレーニングパイプラインが含まれます。音楽と効果音のベンチマークで最先端の結果を達成し、インペインティングベースの音声編集もサポートします。
記事インテリジェンス
要点
- Stable Audio 3は44.1kHzのステレオ音声を可変長で生成し、インペインティング編集をサポート。
- スモール(音楽または効果音)、ミディアム(両方)、ラージ(エンタープライズ)の3規模。スモールとミディアムはオープンウェイト。
- 主要技術: SAMEオートエンコーダー(4096倍圧縮)と3段階トレーニング(フローマッチング、蒸留ウォームアップ、敵対的事後学習)。
- 音楽と効果音ベンチマークで競争力のあるFAD/CLAPスコアを達成し、推論時にCFG不要。
重要な理由
このニュースが重要なのは、Stable Audio 3は44.1kHzのステレオ音声を可変長で生成し、インペインティング編集をサポートためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
Stability AIは、Stable Audio 3をリリースしました。これは、44.1kHzのステレオ音声を生成・編集するための潜在拡散モデルのファミリーです。スモール、ミディアム、ラージの3つのモデルスケールがあり、スモールとミディアムのオープンウェイトがHugging Faceで公開されています。ラージはエンタープライズライセンスで提供されます。
アーキテクチャは、SAMEオートエンコーダーと拡散Transformerの2つの主要コンポーネントで構成されています。SAME(Semantically-Aligned Music autoEncoder)は、4096倍の圧縮率を実現し、44.1kHzのステレオ音声をコンパクトな潜在表現に変換します。オートエンコーダーは5つの損失関数でトレーニングされ、再構成品質とセマンティック構造の両方を保持します。拡散Transformerは、テキスト(T5Gemmaエンコーダー)、継続時間(フーリエ特徴)、およびインペインティングマスクによる条件付けでSAME潜在表現を操作します。
トレーニングは3段階で行われます:最初にフローマッチング事前学習、次に蒸留ウォームアップで多段階ODEを単段階ノイズ除去器に圧縮し、最後に敵対的事後学習で知覚的シャープネスを回復します。この3段階アプローチにより、推論時に分類器自由ガイダンス(CFG)が不要になり、計算コストが削減されます。推論では「ピンポンサンプリング」を使用し、8段階のノイズ除去と再ノイズ追加を繰り返します。
性能面では、Stable Audio 3は音楽と効果音のベンチマークで優れた結果を示しています。Song Describerデータセット(120秒音楽)では、ラージモデルのFADが0.101、ミディアムが0.107と、前世代のStable Audio 2.5と同等以上です。BBC効果音データセット(5秒)では、ミディアムモデルのFADが0.369で、他のオープンウェイトベースラインを大きく上回りました。推論速度も速く、ミディアムモデルはH200で20秒の音声を0.62秒で生成します。また、Stable Audio 3はインペインティング編集をサポートしており、音楽の修復タスクでFAD-fullスコア0.046を達成しています。
注意点として、AudioSparxでトレーニングされたモデル(スモールミュージック、ミディアム、ラージ)は正しいプロンプトプレフィックスを必要とします。音楽の場合は「TrackType: Music, VocalType: Instrumental,」、効果音の場合は「TrackType: SFX,」を先頭に追加します。Stable Audio 3のオープンな提供と効率的なアーキテクチャにより、AI音声生成技術のさらなる普及が期待されます。