2026-05-27 06:31 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Stability AI釋出Stable Audio 3：快速潛在擴散模型系列，用於音訊生成和編輯

Stability AI釋出了Stable Audio 3，這是一個潛在擴散模型系列，用於生成和編輯44.1 kHz立體聲音訊。該系列提供小型、中型和大型三種規模，其中小型和中型開源。關鍵技術包括高度壓縮的SAME自編碼器、可變長度生成以及結合流匹配、蒸餾和對抗性後訓練的三階段訓練流程。該模型在音樂和音效基準測試中取得了最先進的結果，並支援基於修補的音訊編輯。

來源MarkTechPost作者: Asif Razzaq

Stability AI正式釋出了Stable Audio 3，這是一個用於音訊生成和編輯的潛在擴散模型系列。該模型能夠生成44.1 kHz的立體聲音訊，支援可變長度輸出、基於修補的編輯以及快速推理。Stable Audio 3共有三個規模：小型（音樂專用或音效專用，459M引數，最長2分鐘）、中型（1.4B引數，最長6分20秒，支援音樂和音效）和大型（2.7B引數，最長6分20秒，支援音樂和音效）。小型和中型的開放權重已在Hugging Face上釋出，大型則透過企業許可提供。

Stable Audio 3的核心架構由兩個元件構成：SAME自編碼器和擴散Transformer。SAME（語義對齊音樂自編碼器）實現了4096倍的壓縮比，遠高於此前常見的1024-2048倍壓縮。它透過分塊和Transformer重取樣塊將立體聲音訊轉換為緊湊的潛在表示，每秒約10.76幀。自編碼器透過五種損失函式訓練，確保重建質量和語義結構保留。擴散Transformer在SAME潛在表示上操作，透過文本（T5Gemma編碼器）、持續時間（傅立葉特徵）和修補掩碼進行條件控制。中型和大型版本採用差分注意力機制，提高了注意力質量。

訓練過程分為三個階段：首先進行流匹配預訓練，使用小批次最優傳輸耦合；然後進行蒸餾預熱，將多步ODE壓縮為單步去噪器；最後透過對抗性後訓練恢復感知銳度。這種三階段方法使得模型在推理時無需分類器自由引導（CFG），從而降低了計算成本。推理時採用“乒乓取樣”，透過8步的去噪-再噪聲迭代生成音訊。

在效能方面，Stable Audio 3在音樂和音效基準測試中均表現出色。在Song Describer資料集（120秒音樂）上，大型模型的FAD為0.101，中型為0.107，接近或超越上一代Stable Audio 2.5。在BBC音效資料集（5秒）上，中型模型的FAD為0.369，顯著優於其他開源模型。推理速度也很快：中型模型在H200上生成20秒音訊僅需0.62秒。此外，Stable Audio 3支援音訊修補編輯，包括單區域、雙區域和續寫，在音樂修補任務中FAD-full得分接近0.046。

需要注意的是，所有基於AudioSparx訓練的模型（小型音樂、中型、大型）需要正確的提示字首才能正常工作。音樂提示應新增“TrackType: Music, VocalType: Instrumental,”，音效提示應新增“TrackType: SFX,”。Stable Audio 3的開源策略和高效架構將推動AI音訊技術在創意領域更廣泛的應用。