Hugging Face 与 Cerebras 携手将 Gemma 4 引入实时语音 AI
Hugging Face 与 Cerebras 合作,利用 Gemma 4 模型打造实时语音 AI 系统,通过开放模块化架构显著降低延迟,实现更自然的对话体验。该系统集成 Nvidia 的语音识别、Cerebras 的推理加速和 Alibaba 的语音合成,已在 9000 多台 Reachy Mini 机器人中应用。
Hugging Face 与 Cerebras 今日联合宣布,双方基于 Google DeepMind 的 Gemma 4 模型打造了全新的实时语音 AI 系统,旨在解决语音交互中延迟这一关键痛点。尽管模型质量已取得长足进步,但响应时间仍是限制用户体验的主要瓶颈。这套系统通过开放、模块化的语音到语音管道,带来了更接近人类对话的自然流畅感。
系统的核心架构是一个完全开放的级联式语音到语音管道:首先使用 Nvidia 的 Parakeet 进行语音识别,然后由运行在 Cerebras 平台上的 Gemma 4 视觉语言模型(VLM)进行推理,最后通过 Alibaba 的 Qwen3TTS 模型完成文本到语音的转换。每个模块均可独立替换和修改,便于开发者针对不同场景(如助手、机器人、产品研发)进行定制。
Cerebras 的推理加速能力是这套系统的关键。虽然许多生产系统能达到合理的平均延迟,但在高百分位(如 P95)上仍会出现数秒的卡顿,尤其在需要多次工具调用或多模态步骤时更为明显。Cerebras 通过提供极快且稳定的推理速度,显著缓解了这一瓶颈,让 Hugging Face 管道的其他环节得以充分发挥效能。
这种稳定性对实际应用至关重要。许多系统在平均响应时间上表现尚可,但偶发的慢响应会让对话显得不可靠。Hugging Face 的语音管道已成功应用于 Reachy Mini 人形机器人,目前已有超过 9000 台机器人在运行中。对于机器人、语音助手和具身 AI 而言,低延迟不仅是性能提升,更是让交互“活”起来的关键。
此次合作体现了双方对开放、高性能 AI 的共同信念:开源模型、开放基础设施与突破性推理速度相结合,为下一代对话 AI 奠定基础。Hugging Face 和 Cerebras 邀请开发者探索演示、实验代码,共同推动实时语音 AI 的未来发展。使用 Cerebras 的动机不仅仅是降低成本,更是为了实现低延迟、可预测的性能,并能够大规模创建自然的实时体验。这一合作表明,AI 的未来将是开放且高性能的。