AI News HubLIVE
站內改寫3 分鐘閱讀

Interfaze 發佈 diffusion-gemma-asr-small:基於 DiffusionGemma 並行去噪解碼器的開源擴散語音識別模型,支持六種語言

Interfaze 開源了 diffusion-gemma-asr-small,一個多語言語音識別模型,採用擴散解碼器而非自迴歸解碼器。該模型通過一個約 42M 參數的適配器將音頻輸入到 Google 的凍結 DiffusionGemma 模型中,單個適配器即可處理六種語言。轉錄成本由去噪步數決定,而非轉錄長度。在 LibriSpeech 測試集上詞錯誤率為 6.6%,領先其他擴散 ASR 模型。

來源MarkTechPost作者: Michal Sutter

Interfaze,一家年輕的 YC 創業公司,近日開源了一款全新的語音識別模型——diffusion-gemma-asr-small。該模型採用擴散解碼器進行語音轉文本,而非傳統的自迴歸方式。據稱,這是首個多語言音頻擴散 ASR 模型。單個適配器即可處理六種語言,研究團隊僅在凍結的 26B 骨幹網絡上訓練了約 42M 參數,僅佔模型權重的 0.16%。

首先需要明確兩個術語:自迴歸模型逐 token 生成文本,而擴散模型則並行優化所有 token。本模型採用擴散方法進行語音到文本的轉換。

核心要點

  • 據 Interfaze 團隊稱,這是首個開源的多語言擴散 ASR:單個約 42M 參數的適配器即可處理六種語言。
  • 通過 DiffusionGemma 的擴散解碼器進行轉錄,採用均勻隨機 token 擴散,而非吸收式方案。
  • 轉錄成本隨去噪步數擴展,而非轉錄長度。
  • 在 LibriSpeech 上以 6.6% 的詞錯誤率領先擴散同行(Whisfusion 為 8.3%),但落後於自迴歸 Whisper。
  • 適配器以 Apache-2.0 許可證發佈;DiffusionGemma(Gemma 條款)和 whisper-small(MIT)需單獨加載。

什麼是 diffusion-gemma-asr-small?

diffusion-gemma-asr-small 是一個原生音頻 ASR 模型。它使用離散擴散解碼器將語音轉換為文本,該解碼器來自 Google 的 26B 混合專家模型 DiffusionGemma。DiffusionGemma 激活 4B 參數,採用 128 個專家和 top-8 路由。它通過離散擴散而非自迴歸生成文本。

擴散細節很具體。大多數擴散 LLM 使用吸收式方案,而 DiffusionGemma 採用均勻隨機 token 擴散。它用一個固定長度的畫布填充隨機詞彙 token,每一步保留高置信度的預測,並重新隨機化其餘部分。經過幾步後,噪聲退火為文本。

Interfaze 為這個純文本模型添加了音頻功能。開箱即用的 DiffusionGemma 支持文本、圖像和視頻,但不支持音頻。本倉庫僅提供訓練好的適配器(約 42M 參數)。凍結的骨幹網絡需要從各自倉庫單獨下載。

工作原理

模型不會將原始波形直接輸入 LLM。早期嘗試這樣做失敗了,因為凍結的 LLM 從未見過頻譜圖,嵌入空間沒有共振峯或音素的概念。模型學會了忽略音頻併產生流暢的胡言亂語。

有效的設計使用凍結的 whisper-small 編碼器,僅作為特徵提取器,而非解碼器。Whisper 將 30 秒音頻轉換為 1500 幀,每幀包含 768 維聲學特徵。然後,一個可訓練的小型投影器壓縮這些幀,使用 8 倍下采樣的卷積層和線性映射。輸出為 188 個“音頻 token”,維度為 2816。這些 token 被分散到提示的預留槽中。LoRA 適配器使骨幹網絡能夠關注這一新模態。然後,解碼器對 192 token 的轉錄畫布進行去噪,在大約 16 步內雙向運行。

流程如下: 原始音頻 → whisper-small 編碼器(凍結)→ 投影器(訓練,約 19M)→ 分散到 DiffusionGemma 編碼器的 token 槽 → DiffusionGemma 解碼器對 192 token 畫布去噪(雙向,交叉關注音頻)→ 轉錄文本

訓練突破

最初的訓練停滯不前,損失函數徘徊在 8 附近。失敗是循環的:投影器初始隨機,輸出為噪聲;注意力機制學會了忽略它;幾乎沒有梯度到達投影器。模型從未學習。

解決方法是對投影器進行直接監督。研究團隊將 188 個音頻 token 通過凍結的 DiffusionGemma lm_head,並應用 CTC 損失與轉錄文本對比。CTC(連接主義時間分類)可以在無需注意力的情況下將音頻特徵與文本對齊。這繞過了僵局。音頻嵌入變得能線性預測正確的單詞。CTC 損失在 300 步內從 24 降至 8.6。在 LibriSpeech test-clean 上,英語詞錯誤率在十個週期內從 90% 降至 52%,再到 14.6%,最終達 6.6%。

性能與基準

詞錯誤率越低越好。模型在 FLEURS、LibriSpeech 和 VoxPopuli 上訓練。以下分數均使用 Whisper 文本歸一化器,16 個擴散步。

| 基準 | 指標 | 分數 | | --- | --- | --- | | LibriSpeech test-clean (en) | WER | 6.6% | | FLEURS 英語 | WER | 15.7% | | VoxPopuli 英語 | WER | 18.5% | | FLEURS 印地語 | CER | 15.8% | | FLEURS 普通話 | CER | 29.6% |

與其他擴散或非自迴歸 ASR 相比,它處於領先地位。

| 模型 | 方法 | LibriSpeech test-clean | | --- | --- | --- | | TransFusion (2022) | 多項式擴散 | ~6–7%(概念驗證) | | Whisfusion (2025年8月) | Whisper-large-v3 + 掩碼擴散 | 8.3% | | diffusion-gemma-asr-small (2026) | Whisper-small + DiffusionGemma | 6.6% |

與自迴歸 Whisper 相比,它仍落後。團隊將此差距歸因於數據而非架構。

| 基準 | 本模型 | Whisper-small | Whisper-large-v3 | | --- | --- | --- | --- | | LibriSpeech clean | 6.6% | ~3.4% | ~2.0% | | FLEURS-en | 15.7% | ~9–10% | ~4–5% | | VoxPopuli-en | 18.5% | ~9–11% | ~7–10% |

去噪步數掃描顯示曲線近乎平坦。

| 步數 | FLEURS-en WER | 速度 | | --- | --- | --- | | 8 | 15.7% | 14.9× 實時 | | 16 | 15.6% | 10.3× | | 32 | 15.2% | 6.5× | | 48 | 15.6% | 4.7× |

從 8 步增加到 48 步,詞錯誤率改進約 0.1 點,但延遲增加約 3 倍。模型在大約 8 次並行傳遞後收斂,對於 10 秒音頻片段,模型時間約為 0.7–1.5 秒。

應用場景示例

批量轉錄管道受益於並行解碼,成本由去噪步數而非片段長度決定。10 秒片段與更短片段所需的傳遞次數大致相同。

多語言轉錄只需一個適配器,覆蓋英語、德語、法語、西班牙語、印地語和普通話。團隊無需為每種語言加載單獨模型。

非自迴歸 ASR 研究獲得一個可復現的基線。該配方通過小適配器將凍結的 LLM 接地。研究人員可以通過更多音頻或更大的編碼器進行擴展。

如何開始

模型託管在 Hugging Face Hub,提供適配器、model.py、audio.py 和可運行的 inference.py。需要從 GitHub 主分支安裝 transformers。

pip install torch peft soundfile librosa huggingface_hub \
"transformers @ git+https://github.com/huggingface/transformers.git"

然後使用 Python 轉錄:

import sys, soundfile as sf
from huggingface_hub import snapshot_download

repo = snapshot_download("interfaze-ai/diffusion-gemma-asr-small")  # 適配器,約 170 MB
sys.path.insert(0, repo)
from inference import load, transcribe

model, tok, fe = load(f"{repo}/diffusion_asr_small.pt", device="cuda")
wav, sr = sf.read("audio.wav")  # 16 kHz 單聲道 float32
print(transcribe(wav, model, tok, fe, max_steps=16))

也可以從下載的倉庫內使用命令行:

python inference.py audio.wav

max_steps 參數在速度與準確性之間權衡。團隊指出 8 步接近最優且最快,默認值為 16。基座模型依據各自許可證加載:DiffusionGemma 遵循 Gemma 條款,whisper-small 遵循 MIT。