2026-07-01 08:00 UTC+8站内改写1 分钟阅读更新: 2026-07-01 22:57 UTC+8

Hugging Face 与 Cerebras 携手将 Gemma 4 引入实时语音 AI

Hugging Face 与 Cerebras 合作，利用 Gemma 4 模型打造实时语音 AI 系统，通过开放模块化架构显著降低延迟，实现更自然的对话体验。该系统集成 Nvidia 的语音识别、Cerebras 的推理加速和 Alibaba 的语音合成，已在 9000 多台 Reachy Mini 机器人中应用。

来源Hugging Face Blog

Hugging Face 与 Cerebras 今日联合宣布，双方基于 Google DeepMind 的 Gemma 4 模型打造了全新的实时语音 AI 系统，旨在解决语音交互中延迟这一关键痛点。尽管模型质量已取得长足进步，但响应时间仍是限制用户体验的主要瓶颈。这套系统通过开放、模块化的语音到语音管道，带来了更接近人类对话的自然流畅感。

系统的核心架构是一个完全开放的级联式语音到语音管道：首先使用 Nvidia 的 Parakeet 进行语音识别，然后由运行在 Cerebras 平台上的 Gemma 4 视觉语言模型（VLM）进行推理，最后通过 Alibaba 的 Qwen3TTS 模型完成文本到语音的转换。每个模块均可独立替换和修改，便于开发者针对不同场景（如助手、机器人、产品研发）进行定制。

Cerebras 的推理加速能力是这套系统的关键。虽然许多生产系统能达到合理的平均延迟，但在高百分位（如 P95）上仍会出现数秒的卡顿，尤其在需要多次工具调用或多模态步骤时更为明显。Cerebras 通过提供极快且稳定的推理速度，显著缓解了这一瓶颈，让 Hugging Face 管道的其他环节得以充分发挥效能。

这种稳定性对实际应用至关重要。许多系统在平均响应时间上表现尚可，但偶发的慢响应会让对话显得不可靠。Hugging Face 的语音管道已成功应用于 Reachy Mini 人形机器人，目前已有超过 9000 台机器人在运行中。对于机器人、语音助手和具身 AI 而言，低延迟不仅是性能提升，更是让交互“活”起来的关键。

此次合作体现了双方对开放、高性能 AI 的共同信念：开源模型、开放基础设施与突破性推理速度相结合，为下一代对话 AI 奠定基础。Hugging Face 和 Cerebras 邀请开发者探索演示、实验代码，共同推动实时语音 AI 的未来发展。使用 Cerebras 的动机不仅仅是降低成本，更是为了实现低延迟、可预测的性能，并能够大规模创建自然的实时体验。这一合作表明，AI 的未来将是开放且高性能的。