Stability AI发布Stable Audio 3:快速潜在扩散模型系列,用于音频生成和编辑
Stability AI发布了Stable Audio 3,这是一个潜在扩散模型系列,用于生成和编辑44.1 kHz立体声音频。该系列提供小型、中型和大型三种规模,其中小型和中型开源。关键技术包括高度压缩的SAME自编码器、可变长度生成以及结合流匹配、蒸馏和对抗性后训练的三阶段训练流程。该模型在音乐和音效基准测试中取得了最先进的结果,并支持基于修补的音频编辑。
文章情报
要点
- Stable Audio 3可生成44.1 kHz立体声音频,支持可变长度输出和基于修补的编辑。
- 提供三种模型规模:小型(音乐或音效)、中型(两者兼有)和大型(企业许可)。小型和中型开源。
- 关键技术包括SAME自编码器(4096倍压缩)和三阶段训练流程(流匹配、蒸馏预热、对抗性后训练。
- 在音乐和音效基准测试中取得领先的FAD和CLAP分数,推理时无需分类器自由引导。
为什么重要
这条新闻值得关注,因为Stable Audio 3可生成44.1 kHz立体声音频,支持可变长度输出和基于修补的编辑。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
Stability AI正式发布了Stable Audio 3,这是一个用于音频生成和编辑的潜在扩散模型系列。该模型能够生成44.1 kHz的立体声音频,支持可变长度输出、基于修补的编辑以及快速推理。Stable Audio 3共有三个规模:小型(音乐专用或音效专用,459M参数,最长2分钟)、中型(1.4B参数,最长6分20秒,支持音乐和音效)和大型(2.7B参数,最长6分20秒,支持音乐和音效)。小型和中型的开放权重已在Hugging Face上发布,大型则通过企业许可提供。
Stable Audio 3的核心架构由两个组件构成:SAME自编码器和扩散Transformer。SAME(语义对齐音乐自编码器)实现了4096倍的压缩比,远高于此前常见的1024-2048倍压缩。它通过分块和Transformer重采样块将立体声音频转换为紧凑的潜在表示,每秒约10.76帧。自编码器通过五种损失函数训练,确保重建质量和语义结构保留。扩散Transformer在SAME潜在表示上操作,通过文本(T5Gemma编码器)、持续时间(傅里叶特征)和修补掩码进行条件控制。中型和大型版本采用差分注意力机制,提高了注意力质量。
训练过程分为三个阶段:首先进行流匹配预训练,使用小批量最优传输耦合;然后进行蒸馏预热,将多步ODE压缩为单步去噪器;最后通过对抗性后训练恢复感知锐度。这种三阶段方法使得模型在推理时无需分类器自由引导(CFG),从而降低了计算成本。推理时采用“乒乓采样”,通过8步的去噪-再噪声迭代生成音频。
在性能方面,Stable Audio 3在音乐和音效基准测试中均表现出色。在Song Describer数据集(120秒音乐)上,大型模型的FAD为0.101,中型为0.107,接近或超越上一代Stable Audio 2.5。在BBC音效数据集(5秒)上,中型模型的FAD为0.369,显著优于其他开源模型。推理速度也很快:中型模型在H200上生成20秒音频仅需0.62秒。此外,Stable Audio 3支持音频修补编辑,包括单区域、双区域和续写,在音乐修补任务中FAD-full得分接近0.046。
需要注意的是,所有基于AudioSparx训练的模型(小型音乐、中型、大型)需要正确的提示前缀才能正常工作。音乐提示应添加“TrackType: Music, VocalType: Instrumental,”,音效提示应添加“TrackType: SFX,”。Stable Audio 3的开源策略和高效架构将推动AI音频技术在创意领域更广泛的应用。