2026-07-01 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-07-01 22:57 UTC+8

Hugging Face 與 Cerebras 攜手將 Gemma 4 引入實時語音 AI

Hugging Face 與 Cerebras 合作，利用 Gemma 4 模型打造實時語音 AI 系統，通過開放模塊化架構顯著降低延遲，實現更自然的對話體驗。該系統集成 Nvidia 的語音識別、Cerebras 的推理加速和 Alibaba 的語音合成，已在 9000 多台 Reachy Mini 機器人中應用。

來源Hugging Face Blog

Hugging Face 與 Cerebras 今日聯合宣佈，雙方基於 Google DeepMind 的 Gemma 4 模型打造了全新的實時語音 AI 系統，旨在解決語音交互中延遲這一關鍵痛點。儘管模型質量已取得長足進步，但響應時間仍是限制用户體驗的主要瓶頸。這套系統通過開放、模塊化的語音到語音管道，帶來了更接近人類對話的自然流暢感。

系統的核心架構是一個完全開放的級聯式語音到語音管道：首先使用 Nvidia 的 Parakeet 進行語音識別，然後由運行在 Cerebras 平台上的 Gemma 4 視覺語言模型（VLM）進行推理，最後通過 Alibaba 的 Qwen3TTS 模型完成文本到語音的轉換。每個模塊均可獨立替換和修改，便於開發者針對不同場景（如助手、機器人、產品研發）進行定製。

Cerebras 的推理加速能力是這套系統的關鍵。雖然許多生產系統能達到合理的平均延遲，但在高百分位（如 P95）上仍會出現數秒的卡頓，尤其在需要多次工具調用或多模態步驟時更為明顯。Cerebras 通過提供極快且穩定的推理速度，顯著緩解了這一瓶頸，讓 Hugging Face 管道的其他環節得以充分發揮效能。

這種穩定性對實際應用至關重要。許多系統在平均響應時間上表現尚可，但偶發的慢響應會讓對話顯得不可靠。Hugging Face 的語音管道已成功應用於 Reachy Mini 人形機器人，目前已有超過 9000 台機器人在運行中。對於機器人、語音助手和具身 AI 而言，低延遲不僅是性能提升，更是讓交互“活”起來的關鍵。

此次合作體現了雙方對開放、高性能 AI 的共同信念：開源模型、開放基礎設施與突破性推理速度相結合，為下一代對話 AI 奠定基礎。Hugging Face 和 Cerebras 邀請開發者探索演示、實驗代碼，共同推動實時語音 AI 的未來發展。使用 Cerebras 的動機不僅僅是降低成本，更是為了實現低延遲、可預測的性能，並能夠大規模創建自然的實時體驗。這一合作表明，AI 的未來將是開放且高性能的。