AI News HubLIVE
站内改写

Reachy Miniが完全ローカル対応

本記事では、Reachy Miniロボット向けにクラウドやAPIキーを必要としない完全ローカルの音声会話パイプラインをデプロイする方法を詳しく説明します。VAD、STT、LLM、TTSを組み合わせたカスケード方式を採用し、推奨デフォルトとしてllama.cppとGemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT、Qwen3-TTSを使用します。ローカルMLX、Transformers、vLLM、リモートResponses APIなど、さまざまなLLMオプションが提供されています。

記事インテリジェンス

エンジニア上級

要点

  • Reachy Miniがサーバー不要の完全ローカル会話を実現。
  • カスケードパイプラインはVAD、STT、LLM、TTSで構成され、コンポーネントを交換可能。
  • 推奨デフォルト:Silero VAD、Parakeet-TDT STT、Qwen3-TTS。
  • LLMはローカルllama.cpp、MLX、vLLM、またはリモートAPIなど複数の実行モードをサポート。

重要な理由

このニュースが重要なのは、Reachy Miniがサーバー不要の完全ローカル会話を実現ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Reachy Miniロボットは、音声を外部サーバーに送信することなく、完全にローカルで会話パイプラインを実行できるようになりました。この変更は、音声から音声へのライブラリによって実現され、カスケードアーキテクチャ(音声アクティビティ検出(VAD)、音声からテキスト(STT)、大規模言語モデル(LLM)、テキストから音声(TTS))を採用しています。パイプライン全体は、Realtime API互換のWebSocketエンドポイントを介して提供されます。

開始するには、まず音声から音声へのライブラリをインストールし、LLMサーバーを起動します。推奨されるのは、llama.cppを使用してGemma 4モデルを実行することです。起動コマンドは次のとおりです:llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full。このコマンドはHugging Face Hubからモデルをダウンロードし、64kコンテキストウィンドウとFlash Attentionを使用して推論を高速化します。

次に、別のターミナルで音声から音声へのコマンドを実行します:speech-to-speech --responses_api_base_url "http://127.0.0.1:8080" --responses_api_api_key "" --mode local。初回実行時には、Parakeet-TDT 0.6B v3 STTモデルとQwen3-TTSモデルがダウンロードされます。その後、ターミナルを介してモデルと会話したり、Reachy Miniロボットに接続するサーバーとして使用したりできます。

完全ローカルで実行する利点には、プライバシー(音声がネットワーク外に出ない)、API費用が不要、パイプラインコンポーネントを自由に制御できることなどがあります。VAD、STT、LLM、TTSモデルは必要に応じて交換できます。

LLMに関して、音声から音声へのライブラリは複数のバックエンドをサポートしています。例えば、vLLMを使用してQwen3-4Bモデルを実行し、Responses APIプロトコルを介して音声ループと通信できます。vLLMサーバーは自動ツール選択とツール呼び出しパーサーを有効にし、遅延を減らすために思考チャネルを無効にする必要があります。別のオプションとして、マネージドGPUリソースを提供するHugging Face推論エンドポイントや推論プロバイダーを使用することもできます。OpenAIなどの商用APIを直接使用することも可能ですが、ローカル性は失われます。

Macを使用する場合は、MLXバックエンドを利用して最低遅延でQwen3-4Bを実行できます。CUDAシステムの場合は、Transformersバックエンドを使用できます。いずれの場合も、音声エンジンをLANアドレスにバインドすることで、ロボットがネットワーク経由で接続できるようになります。

最終的に、Reachy Miniはローカルで完全な音声ループを実現します:Silero VADによる音声検出、Parakeet-TDTによる文字起こし、LLMによる推論、Qwen3-TTSによる音声合成。ユーザーはこれらのコンポーネントを自由に組み合わせることができます。