AI News HubLIVE
サイト内リライト2 分で読了

Hugging Face と Cerebras、Gemma 4 をリアルタイム音声AIに導入

Hugging Face と Cerebras は、Gemma 4 を活用したリアルタイム音声AIシステムを発表。オープンなモジュラーアーキテクチャによりレイテンシを大幅に削減し、自然な対話を実現する。Nvidia の音声認識、Cerebras の高速推論、Alibaba の音声合成を統合し、9,000台以上の Reachy Mini ロボットに導入されている。

Hugging Face と Cerebras は本日、Google DeepMind の Gemma 4 モデルを活用したリアルタイム音声AIシステムを発表しました。音声AIにおいてレイテンシは重要なパラメータであり、モデル品質は向上したものの、応答時間がユーザー体験を制限してきました。今回のシステムは、オープンでモジュラーな音声対音声アーキテクチャと業界最先端の推論速度を組み合わせることで、より自然な対話を実現します。

システムの核となるのは、完全にオープンなカスケード型音声対音声パイプラインです。音声入力は Nvidia の Parakeet で音声認識され、次に Cerebras 上で Gemma 4 VLM が推論を行い、最後に Alibaba の Qwen3TTS でテキストが音声に変換されます。各モジュールは独立して交換可能であり、開発者は様々なアシスタントやロボット、製品、研究プロジェクトに容易に適応できます。

Cerebras の推論高速化は、このシステムにおいて重要な役割を果たします。多くの実運用システムは中央値で許容範囲のレイテンシを達成していますが、P95 では依然として数秒の遅延が発生することがあります。Cerebras は推論を大幅に高速化・安定化することで、Hugging Face パイプラインの他の部分を最大限に活かします。この安定性は、特に長尾の遅延が会話の信頼性を損なう場面で重要です。

Hugging Face の音声パイプラインは既に Reachy Mini ロボットに搭載され、9,000台以上のロボットが実環境で稼働しています。ロボット、音声アシスタント、具現化AIにとって、応答性は単なる改善ではなく、インタラクションを生き生きとしたものにする要素です。

今回の協業は、AIの未来がオープンでありかつ高性能であるべきという共通の信念を反映しています。オープンソースモデル、オープンインフラストラクチャ、そして画期的な推論速度が組み合わさることで、次世代の対話AIの基盤が生まれます。Cerebras を利用する動機は単なるコスト削減ではなく、低レイテンシ、予測可能なパフォーマンス、そしてリアルタイム体験を大規模に自然に作り出す能力にあります。Hugging Face と Cerebras は、開発者がデモを探索し、コードを実験し、リアルタイム音声AIの未来を共に築くことを歓迎します。