AI News HubLIVE
站内改写

Stability AI發佈Stable Audio 3:快速潛在擴散模型系列,用於音頻生成和編輯

Stability AI發佈了Stable Audio 3,這是一個潛在擴散模型系列,用於生成和編輯44.1 kHz立體聲音頻。該系列提供小型、中型和大型三種規模,其中小型和中型開源。關鍵技術包括高度壓縮的SAME自編碼器、可變長度生成以及結合流匹配、蒸餾和對抗性後訓練的三階段訓練流程。該模型在音樂和音效基準測試中取得了最先進的結果,並支持基於修補的音頻編輯。

文章情報

工程師進階

要點

  • Stable Audio 3可生成44.1 kHz立體聲音頻,支持可變長度輸出和基於修補的編輯。
  • 提供三種模型規模:小型(音樂或音效)、中型(兩者兼有)和大型(企業許可)。小型和中型開源。
  • 關鍵技術包括SAME自編碼器(4096倍壓縮)和三階段訓練流程(流匹配、蒸餾預熱、對抗性後訓練。
  • 在音樂和音效基準測試中取得領先的FAD和CLAP分數,推理時無需分類器自由引導。

為甚麼重要

這條新聞值得關注,因為Stable Audio 3可生成44.1 kHz立體聲音頻,支持可變長度輸出和基於修補的編輯。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Stability AI正式發佈了Stable Audio 3,這是一個用於音頻生成和編輯的潛在擴散模型系列。該模型能夠生成44.1 kHz的立體聲音頻,支持可變長度輸出、基於修補的編輯以及快速推理。Stable Audio 3共有三個規模:小型(音樂專用或音效專用,459M參數,最長2分鐘)、中型(1.4B參數,最長6分20秒,支持音樂和音效)和大型(2.7B參數,最長6分20秒,支持音樂和音效)。小型和中型的開放權重已在Hugging Face上發佈,大型則通過企業許可提供。

Stable Audio 3的核心架構由兩個組件構成:SAME自編碼器和擴散Transformer。SAME(語義對齊音樂自編碼器)實現了4096倍的壓縮比,遠高於此前常見的1024-2048倍壓縮。它通過分塊和Transformer重採樣塊將立體聲音頻轉換為緊湊的潛在表示,每秒約10.76幀。自編碼器通過五種損失函數訓練,確保重建質量和語義結構保留。擴散Transformer在SAME潛在表示上操作,通過文本(T5Gemma編碼器)、持續時間(傅里葉特徵)和修補掩碼進行條件控制。中型和大型版本採用差分注意力機制,提高了注意力質量。

訓練過程分為三個階段:首先進行流匹配預訓練,使用小批量最優傳輸耦合;然後進行蒸餾預熱,將多步ODE壓縮為單步去噪器;最後通過對抗性後訓練恢復感知鋭度。這種三階段方法使得模型在推理時無需分類器自由引導(CFG),從而降低了計算成本。推理時採用“乒乓採樣”,通過8步的去噪-再噪聲迭代生成音頻。

在性能方面,Stable Audio 3在音樂和音效基準測試中均表現出色。在Song Describer數據集(120秒音樂)上,大型模型的FAD為0.101,中型為0.107,接近或超越上一代Stable Audio 2.5。在BBC音效數據集(5秒)上,中型模型的FAD為0.369,顯著優於其他開源模型。推理速度也很快:中型模型在H200上生成20秒音頻僅需0.62秒。此外,Stable Audio 3支持音頻修補編輯,包括單區域、雙區域和續寫,在音樂修補任務中FAD-full得分接近0.046。

需要注意的是,所有基於AudioSparx訓練的模型(小型音樂、中型、大型)需要正確的提示前綴才能正常工作。音樂提示應添加“TrackType: Music, VocalType: Instrumental,”,音效提示應添加“TrackType: SFX,”。Stable Audio 3的開源策略和高效架構將推動AI音頻技術在創意領域更廣泛的應用。