2026-05-27 06:31 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Stability AI发布Stable Audio 3：快速潜在扩散模型系列，用于音频生成和编辑

Stability AI发布了Stable Audio 3，这是一个潜在扩散模型系列，用于生成和编辑44.1 kHz立体声音频。该系列提供小型、中型和大型三种规模，其中小型和中型开源。关键技术包括高度压缩的SAME自编码器、可变长度生成以及结合流匹配、蒸馏和对抗性后训练的三阶段训练流程。该模型在音乐和音效基准测试中取得了最先进的结果，并支持基于修补的音频编辑。

来源MarkTechPost作者: Asif Razzaq

Stability AI正式发布了Stable Audio 3，这是一个用于音频生成和编辑的潜在扩散模型系列。该模型能够生成44.1 kHz的立体声音频，支持可变长度输出、基于修补的编辑以及快速推理。Stable Audio 3共有三个规模：小型（音乐专用或音效专用，459M参数，最长2分钟）、中型（1.4B参数，最长6分20秒，支持音乐和音效）和大型（2.7B参数，最长6分20秒，支持音乐和音效）。小型和中型的开放权重已在Hugging Face上发布，大型则通过企业许可提供。

Stable Audio 3的核心架构由两个组件构成：SAME自编码器和扩散Transformer。SAME（语义对齐音乐自编码器）实现了4096倍的压缩比，远高于此前常见的1024-2048倍压缩。它通过分块和Transformer重采样块将立体声音频转换为紧凑的潜在表示，每秒约10.76帧。自编码器通过五种损失函数训练，确保重建质量和语义结构保留。扩散Transformer在SAME潜在表示上操作，通过文本（T5Gemma编码器）、持续时间（傅里叶特征）和修补掩码进行条件控制。中型和大型版本采用差分注意力机制，提高了注意力质量。

训练过程分为三个阶段：首先进行流匹配预训练，使用小批量最优传输耦合；然后进行蒸馏预热，将多步ODE压缩为单步去噪器；最后通过对抗性后训练恢复感知锐度。这种三阶段方法使得模型在推理时无需分类器自由引导（CFG），从而降低了计算成本。推理时采用“乒乓采样”，通过8步的去噪-再噪声迭代生成音频。

在性能方面，Stable Audio 3在音乐和音效基准测试中均表现出色。在Song Describer数据集（120秒音乐）上，大型模型的FAD为0.101，中型为0.107，接近或超越上一代Stable Audio 2.5。在BBC音效数据集（5秒）上，中型模型的FAD为0.369，显著优于其他开源模型。推理速度也很快：中型模型在H200上生成20秒音频仅需0.62秒。此外，Stable Audio 3支持音频修补编辑，包括单区域、双区域和续写，在音乐修补任务中FAD-full得分接近0.046。

需要注意的是，所有基于AudioSparx训练的模型（小型音乐、中型、大型）需要正确的提示前缀才能正常工作。音乐提示应添加“TrackType: Music, VocalType: Instrumental,”，音效提示应添加“TrackType: SFX,”。Stable Audio 3的开源策略和高效架构将推动AI音频技术在创意领域更广泛的应用。