2026-05-27 06:31 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Stability AI發佈Stable Audio 3：快速潛在擴散模型系列，用於音頻生成和編輯

Stability AI發佈了Stable Audio 3，這是一個潛在擴散模型系列，用於生成和編輯44.1 kHz立體聲音頻。該系列提供小型、中型和大型三種規模，其中小型和中型開源。關鍵技術包括高度壓縮的SAME自編碼器、可變長度生成以及結合流匹配、蒸餾和對抗性後訓練的三階段訓練流程。該模型在音樂和音效基準測試中取得了最先進的結果，並支持基於修補的音頻編輯。

來源MarkTechPost作者: Asif Razzaq

Stability AI正式發佈了Stable Audio 3，這是一個用於音頻生成和編輯的潛在擴散模型系列。該模型能夠生成44.1 kHz的立體聲音頻，支持可變長度輸出、基於修補的編輯以及快速推理。Stable Audio 3共有三個規模：小型（音樂專用或音效專用，459M參數，最長2分鐘）、中型（1.4B參數，最長6分20秒，支持音樂和音效）和大型（2.7B參數，最長6分20秒，支持音樂和音效）。小型和中型的開放權重已在Hugging Face上發佈，大型則通過企業許可提供。

Stable Audio 3的核心架構由兩個組件構成：SAME自編碼器和擴散Transformer。SAME（語義對齊音樂自編碼器）實現了4096倍的壓縮比，遠高於此前常見的1024-2048倍壓縮。它通過分塊和Transformer重採樣塊將立體聲音頻轉換為緊湊的潛在表示，每秒約10.76幀。自編碼器通過五種損失函數訓練，確保重建質量和語義結構保留。擴散Transformer在SAME潛在表示上操作，通過文本（T5Gemma編碼器）、持續時間（傅里葉特徵）和修補掩碼進行條件控制。中型和大型版本採用差分注意力機制，提高了注意力質量。

訓練過程分為三個階段：首先進行流匹配預訓練，使用小批量最優傳輸耦合；然後進行蒸餾預熱，將多步ODE壓縮為單步去噪器；最後通過對抗性後訓練恢復感知鋭度。這種三階段方法使得模型在推理時無需分類器自由引導（CFG），從而降低了計算成本。推理時採用“乒乓採樣”，通過8步的去噪-再噪聲迭代生成音頻。

在性能方面，Stable Audio 3在音樂和音效基準測試中均表現出色。在Song Describer數據集（120秒音樂）上，大型模型的FAD為0.101，中型為0.107，接近或超越上一代Stable Audio 2.5。在BBC音效數據集（5秒）上，中型模型的FAD為0.369，顯著優於其他開源模型。推理速度也很快：中型模型在H200上生成20秒音頻僅需0.62秒。此外，Stable Audio 3支持音頻修補編輯，包括單區域、雙區域和續寫，在音樂修補任務中FAD-full得分接近0.046。

需要注意的是，所有基於AudioSparx訓練的模型（小型音樂、中型、大型）需要正確的提示前綴才能正常工作。音樂提示應添加“TrackType: Music, VocalType: Instrumental,”，音效提示應添加“TrackType: SFX,”。Stable Audio 3的開源策略和高效架構將推動AI音頻技術在創意領域更廣泛的應用。