AI News HubLIVE
站內改寫1 分鐘閱讀

Hugging Face 與 Cerebras 攜手將 Gemma 4 引入實時語音 AI

Hugging Face 與 Cerebras 合作,利用 Gemma 4 模型打造實時語音 AI 系統,通過開放模塊化架構顯著降低延遲,實現更自然的對話體驗。該系統集成 Nvidia 的語音識別、Cerebras 的推理加速和 Alibaba 的語音合成,已在 9000 多台 Reachy Mini 機器人中應用。

Hugging Face 與 Cerebras 今日聯合宣佈,雙方基於 Google DeepMind 的 Gemma 4 模型打造了全新的實時語音 AI 系統,旨在解決語音交互中延遲這一關鍵痛點。儘管模型質量已取得長足進步,但響應時間仍是限制用户體驗的主要瓶頸。這套系統通過開放、模塊化的語音到語音管道,帶來了更接近人類對話的自然流暢感。

系統的核心架構是一個完全開放的級聯式語音到語音管道:首先使用 Nvidia 的 Parakeet 進行語音識別,然後由運行在 Cerebras 平台上的 Gemma 4 視覺語言模型(VLM)進行推理,最後通過 Alibaba 的 Qwen3TTS 模型完成文本到語音的轉換。每個模塊均可獨立替換和修改,便於開發者針對不同場景(如助手、機器人、產品研發)進行定製。

Cerebras 的推理加速能力是這套系統的關鍵。雖然許多生產系統能達到合理的平均延遲,但在高百分位(如 P95)上仍會出現數秒的卡頓,尤其在需要多次工具調用或多模態步驟時更為明顯。Cerebras 通過提供極快且穩定的推理速度,顯著緩解了這一瓶頸,讓 Hugging Face 管道的其他環節得以充分發揮效能。

這種穩定性對實際應用至關重要。許多系統在平均響應時間上表現尚可,但偶發的慢響應會讓對話顯得不可靠。Hugging Face 的語音管道已成功應用於 Reachy Mini 人形機器人,目前已有超過 9000 台機器人在運行中。對於機器人、語音助手和具身 AI 而言,低延遲不僅是性能提升,更是讓交互“活”起來的關鍵。

此次合作體現了雙方對開放、高性能 AI 的共同信念:開源模型、開放基礎設施與突破性推理速度相結合,為下一代對話 AI 奠定基礎。Hugging Face 和 Cerebras 邀請開發者探索演示、實驗代碼,共同推動實時語音 AI 的未來發展。使用 Cerebras 的動機不僅僅是降低成本,更是為了實現低延遲、可預測的性能,並能夠大規模創建自然的實時體驗。這一合作表明,AI 的未來將是開放且高性能的。