2026-07-03 11:24 UTC+8站內改寫3 分鐘閱讀更新: 2026-07-03 11:37 UTC+8

Interfaze 發佈 diffusion-gemma-asr-small：基於 DiffusionGemma 並行去噪解碼器的開源擴散語音識別模型，支持六種語言

Interfaze 開源了 diffusion-gemma-asr-small，一個多語言語音識別模型，採用擴散解碼器而非自迴歸解碼器。該模型通過一個約 42M 參數的適配器將音頻輸入到 Google 的凍結 DiffusionGemma 模型中，單個適配器即可處理六種語言。轉錄成本由去噪步數決定，而非轉錄長度。在 LibriSpeech 測試集上詞錯誤率為 6.6%，領先其他擴散 ASR 模型。

來源MarkTechPost作者: Michal Sutter

Interfaze，一家年輕的 YC 創業公司，近日開源了一款全新的語音識別模型——diffusion-gemma-asr-small。該模型採用擴散解碼器進行語音轉文本，而非傳統的自迴歸方式。據稱，這是首個多語言音頻擴散 ASR 模型。單個適配器即可處理六種語言，研究團隊僅在凍結的 26B 骨幹網絡上訓練了約 42M 參數，僅佔模型權重的 0.16%。

首先需要明確兩個術語：自迴歸模型逐 token 生成文本，而擴散模型則並行優化所有 token。本模型採用擴散方法進行語音到文本的轉換。

核心要點

據 Interfaze 團隊稱，這是首個開源的多語言擴散 ASR：單個約 42M 參數的適配器即可處理六種語言。
通過 DiffusionGemma 的擴散解碼器進行轉錄，採用均勻隨機 token 擴散，而非吸收式方案。
轉錄成本隨去噪步數擴展，而非轉錄長度。
在 LibriSpeech 上以 6.6% 的詞錯誤率領先擴散同行（Whisfusion 為 8.3%），但落後於自迴歸 Whisper。
適配器以 Apache-2.0 許可證發佈；DiffusionGemma（Gemma 條款）和 whisper-small（MIT）需單獨加載。

什麼是 diffusion-gemma-asr-small？

diffusion-gemma-asr-small 是一個原生音頻 ASR 模型。它使用離散擴散解碼器將語音轉換為文本，該解碼器來自 Google 的 26B 混合專家模型 DiffusionGemma。DiffusionGemma 激活 4B 參數，採用 128 個專家和 top-8 路由。它通過離散擴散而非自迴歸生成文本。

擴散細節很具體。大多數擴散 LLM 使用吸收式方案，而 DiffusionGemma 採用均勻隨機 token 擴散。它用一個固定長度的畫布填充隨機詞彙 token，每一步保留高置信度的預測，並重新隨機化其餘部分。經過幾步後，噪聲退火為文本。

Interfaze 為這個純文本模型添加了音頻功能。開箱即用的 DiffusionGemma 支持文本、圖像和視頻，但不支持音頻。本倉庫僅提供訓練好的適配器（約 42M 參數）。凍結的骨幹網絡需要從各自倉庫單獨下載。

工作原理

模型不會將原始波形直接輸入 LLM。早期嘗試這樣做失敗了，因為凍結的 LLM 從未見過頻譜圖，嵌入空間沒有共振峯或音素的概念。模型學會了忽略音頻併產生流暢的胡言亂語。

有效的設計使用凍結的 whisper-small 編碼器，僅作為特徵提取器，而非解碼器。Whisper 將 30 秒音頻轉換為 1500 幀，每幀包含 768 維聲學特徵。然後，一個可訓練的小型投影器壓縮這些幀，使用 8 倍下采樣的卷積層和線性映射。輸出為 188 個“音頻 token”，維度為 2816。這些 token 被分散到提示的預留槽中。LoRA 適配器使骨幹網絡能夠關注這一新模態。然後，解碼器對 192 token 的轉錄畫布進行去噪，在大約 16 步內雙向運行。

流程如下：原始音頻 → whisper-small 編碼器（凍結）→ 投影器（訓練，約 19M）→ 分散到 DiffusionGemma 編碼器的 token 槽 → DiffusionGemma 解碼器對 192 token 畫布去噪（雙向，交叉關注音頻）→ 轉錄文本

訓練突破

最初的訓練停滯不前，損失函數徘徊在 8 附近。失敗是循環的：投影器初始隨機，輸出為噪聲；注意力機制學會了忽略它；幾乎沒有梯度到達投影器。模型從未學習。

解決方法是對投影器進行直接監督。研究團隊將 188 個音頻 token 通過凍結的 DiffusionGemma lm_head，並應用 CTC 損失與轉錄文本對比。CTC（連接主義時間分類）可以在無需注意力的情況下將音頻特徵與文本對齊。這繞過了僵局。音頻嵌入變得能線性預測正確的單詞。CTC 損失在 300 步內從 24 降至 8.6。在 LibriSpeech test-clean 上，英語詞錯誤率在十個週期內從 90% 降至 52%，再到 14.6%，最終達 6.6%。

性能與基準

詞錯誤率越低越好。模型在 FLEURS、LibriSpeech 和 VoxPopuli 上訓練。以下分數均使用 Whisper 文本歸一化器，16 個擴散步。

| 基準 | 指標 | 分數 | | --- | --- | --- | | LibriSpeech test-clean (en) | WER | 6.6% | | FLEURS 英語 | WER | 15.7% | | VoxPopuli 英語 | WER | 18.5% | | FLEURS 印地語 | CER | 15.8% | | FLEURS 普通話 | CER | 29.6% |

與其他擴散或非自迴歸 ASR 相比，它處於領先地位。

| 模型 | 方法 | LibriSpeech test-clean | | --- | --- | --- | | TransFusion (2022) | 多項式擴散 | ~6–7%（概念驗證） | | Whisfusion (2025年8月) | Whisper-large-v3 + 掩碼擴散 | 8.3% | | diffusion-gemma-asr-small (2026) | Whisper-small + DiffusionGemma | 6.6% |

與自迴歸 Whisper 相比，它仍落後。團隊將此差距歸因於數據而非架構。

| 基準 | 本模型 | Whisper-small | Whisper-large-v3 | | --- | --- | --- | --- | | LibriSpeech clean | 6.6% | ~3.4% | ~2.0% | | FLEURS-en | 15.7% | ~9–10% | ~4–5% | | VoxPopuli-en | 18.5% | ~9–11% | ~7–10% |

去噪步數掃描顯示曲線近乎平坦。

| 步數 | FLEURS-en WER | 速度 | | --- | --- | --- | | 8 | 15.7% | 14.9× 實時 | | 16 | 15.6% | 10.3× | | 32 | 15.2% | 6.5× | | 48 | 15.6% | 4.7× |

從 8 步增加到 48 步，詞錯誤率改進約 0.1 點，但延遲增加約 3 倍。模型在大約 8 次並行傳遞後收斂，對於 10 秒音頻片段，模型時間約為 0.7–1.5 秒。

應用場景示例

批量轉錄管道受益於並行解碼，成本由去噪步數而非片段長度決定。10 秒片段與更短片段所需的傳遞次數大致相同。

多語言轉錄只需一個適配器，覆蓋英語、德語、法語、西班牙語、印地語和普通話。團隊無需為每種語言加載單獨模型。

非自迴歸 ASR 研究獲得一個可復現的基線。該配方通過小適配器將凍結的 LLM 接地。研究人員可以通過更多音頻或更大的編碼器進行擴展。

如何開始

模型託管在 Hugging Face Hub，提供適配器、model.py、audio.py 和可運行的 inference.py。需要從 GitHub 主分支安裝 transformers。

pip install torch peft soundfile librosa huggingface_hub \
"transformers @ git+https://github.com/huggingface/transformers.git"

然後使用 Python 轉錄：

import sys, soundfile as sf
from huggingface_hub import snapshot_download

repo = snapshot_download("interfaze-ai/diffusion-gemma-asr-small")  # 適配器，約 170 MB
sys.path.insert(0, repo)
from inference import load, transcribe

model, tok, fe = load(f"{repo}/diffusion_asr_small.pt", device="cuda")
wav, sr = sf.read("audio.wav")  # 16 kHz 單聲道 float32
print(transcribe(wav, model, tok, fe, max_steps=16))

也可以從下載的倉庫內使用命令行：

python inference.py audio.wav

max_steps 參數在速度與準確性之間權衡。團隊指出 8 步接近最優且最快，默認值為 16。基座模型依據各自許可證加載：DiffusionGemma 遵循 Gemma 條款，whisper-small 遵循 MIT。