2026-05-27 07:31 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

Stability AI、Stable Audio 3を公開：高速潜在拡散モデルによる音声生成と編集

Stability AIは、44.1kHzのステレオ音声を生成・編集する潜在拡散モデルファミリー「Stable Audio 3」を公開しました。スモール、ミディアム、ラージの3つのスケールがあり、スモールとミディアムはオープンウェイトで提供されます。主な技術革新には、高圧縮SAMEオートエンコーダー、可変長生成、およびフローマッチング、蒸留、敵対的事後学習を組み合わせた3段階トレーニングパイプラインが含まれます。音楽と効果音のベンチマークで最先端の結果を達成し、インペインティングベースの音声編集もサポートします。

ソースMarkTechPost著者: Asif Razzaq

記事インテリジェンス

エンジニア上級

要点

Stable Audio 3は44.1kHzのステレオ音声を可変長で生成し、インペインティング編集をサポート。
スモール（音楽または効果音）、ミディアム（両方）、ラージ（エンタープライズ）の3規模。スモールとミディアムはオープンウェイト。
主要技術: SAMEオートエンコーダー（4096倍圧縮）と3段階トレーニング（フローマッチング、蒸留ウォームアップ、敵対的事後学習）。
音楽と効果音ベンチマークで競争力のあるFAD/CLAPスコアを達成し、推論時にCFG不要。

重要な理由

このニュースが重要なのは、Stable Audio 3は44.1kHzのステレオ音声を可変長で生成し、インペインティング編集をサポートためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Stability AIは、Stable Audio 3をリリースしました。これは、44.1kHzのステレオ音声を生成・編集するための潜在拡散モデルのファミリーです。スモール、ミディアム、ラージの3つのモデルスケールがあり、スモールとミディアムのオープンウェイトがHugging Faceで公開されています。ラージはエンタープライズライセンスで提供されます。

アーキテクチャは、SAMEオートエンコーダーと拡散Transformerの2つの主要コンポーネントで構成されています。SAME（Semantically-Aligned Music autoEncoder）は、4096倍の圧縮率を実現し、44.1kHzのステレオ音声をコンパクトな潜在表現に変換します。オートエンコーダーは5つの損失関数でトレーニングされ、再構成品質とセマンティック構造の両方を保持します。拡散Transformerは、テキスト（T5Gemmaエンコーダー）、継続時間（フーリエ特徴）、およびインペインティングマスクによる条件付けでSAME潜在表現を操作します。

トレーニングは3段階で行われます：最初にフローマッチング事前学習、次に蒸留ウォームアップで多段階ODEを単段階ノイズ除去器に圧縮し、最後に敵対的事後学習で知覚的シャープネスを回復します。この3段階アプローチにより、推論時に分類器自由ガイダンス（CFG）が不要になり、計算コストが削減されます。推論では「ピンポンサンプリング」を使用し、8段階のノイズ除去と再ノイズ追加を繰り返します。

性能面では、Stable Audio 3は音楽と効果音のベンチマークで優れた結果を示しています。Song Describerデータセット（120秒音楽）では、ラージモデルのFADが0.101、ミディアムが0.107と、前世代のStable Audio 2.5と同等以上です。BBC効果音データセット（5秒）では、ミディアムモデルのFADが0.369で、他のオープンウェイトベースラインを大きく上回りました。推論速度も速く、ミディアムモデルはH200で20秒の音声を0.62秒で生成します。また、Stable Audio 3はインペインティング編集をサポートしており、音楽の修復タスクでFAD-fullスコア0.046を達成しています。

注意点として、AudioSparxでトレーニングされたモデル（スモールミュージック、ミディアム、ラージ）は正しいプロンプトプレフィックスを必要とします。音楽の場合は「TrackType: Music, VocalType: Instrumental,」、効果音の場合は「TrackType: SFX,」を先頭に追加します。Stable Audio 3のオープンな提供と効率的なアーキテクチャにより、AI音声生成技術のさらなる普及が期待されます。