Stability AI釋出Stable Audio 3:快速潛在擴散模型系列,用於音訊生成和編輯
Stability AI釋出了Stable Audio 3,這是一個潛在擴散模型系列,用於生成和編輯44.1 kHz立體聲音訊。該系列提供小型、中型和大型三種規模,其中小型和中型開源。關鍵技術包括高度壓縮的SAME自編碼器、可變長度生成以及結合流匹配、蒸餾和對抗性後訓練的三階段訓練流程。該模型在音樂和音效基準測試中取得了最先進的結果,並支援基於修補的音訊編輯。
文章情報
要點
- Stable Audio 3可生成44.1 kHz立體聲音訊,支援可變長度輸出和基於修補的編輯。
- 提供三種模型規模:小型(音樂或音效)、中型(兩者兼有)和大型(企業許可)。小型和中型開源。
- 關鍵技術包括SAME自編碼器(4096倍壓縮)和三階段訓練流程(流匹配、蒸餾預熱、對抗性後訓練。
- 在音樂和音效基準測試中取得領先的FAD和CLAP分數,推理時無需分類器自由引導。
為什麼重要
這條新聞值得關注,因為Stable Audio 3可生成44.1 kHz立體聲音訊,支援可變長度輸出和基於修補的編輯。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Stability AI正式釋出了Stable Audio 3,這是一個用於音訊生成和編輯的潛在擴散模型系列。該模型能夠生成44.1 kHz的立體聲音訊,支援可變長度輸出、基於修補的編輯以及快速推理。Stable Audio 3共有三個規模:小型(音樂專用或音效專用,459M引數,最長2分鐘)、中型(1.4B引數,最長6分20秒,支援音樂和音效)和大型(2.7B引數,最長6分20秒,支援音樂和音效)。小型和中型的開放權重已在Hugging Face上釋出,大型則透過企業許可提供。
Stable Audio 3的核心架構由兩個元件構成:SAME自編碼器和擴散Transformer。SAME(語義對齊音樂自編碼器)實現了4096倍的壓縮比,遠高於此前常見的1024-2048倍壓縮。它透過分塊和Transformer重取樣塊將立體聲音訊轉換為緊湊的潛在表示,每秒約10.76幀。自編碼器透過五種損失函式訓練,確保重建質量和語義結構保留。擴散Transformer在SAME潛在表示上操作,透過文本(T5Gemma編碼器)、持續時間(傅立葉特徵)和修補掩碼進行條件控制。中型和大型版本採用差分注意力機制,提高了注意力質量。
訓練過程分為三個階段:首先進行流匹配預訓練,使用小批次最優傳輸耦合;然後進行蒸餾預熱,將多步ODE壓縮為單步去噪器;最後透過對抗性後訓練恢復感知銳度。這種三階段方法使得模型在推理時無需分類器自由引導(CFG),從而降低了計算成本。推理時採用“乒乓取樣”,透過8步的去噪-再噪聲迭代生成音訊。
在效能方面,Stable Audio 3在音樂和音效基準測試中均表現出色。在Song Describer資料集(120秒音樂)上,大型模型的FAD為0.101,中型為0.107,接近或超越上一代Stable Audio 2.5。在BBC音效資料集(5秒)上,中型模型的FAD為0.369,顯著優於其他開源模型。推理速度也很快:中型模型在H200上生成20秒音訊僅需0.62秒。此外,Stable Audio 3支援音訊修補編輯,包括單區域、雙區域和續寫,在音樂修補任務中FAD-full得分接近0.046。
需要注意的是,所有基於AudioSparx訓練的模型(小型音樂、中型、大型)需要正確的提示字首才能正常工作。音樂提示應新增“TrackType: Music, VocalType: Instrumental,”,音效提示應新增“TrackType: SFX,”。Stable Audio 3的開源策略和高效架構將推動AI音訊技術在創意領域更廣泛的應用。