2026-05-27 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Reachy Mini實現完全本地執行

本文詳細介紹瞭如何為Reachy Mini機器人部署完全本地的語音對話管道，無需雲端或API金鑰。採用級聯方式，結合VAD、STT、LLM和TTS，推薦使用llama.cpp與Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多種LLM執行選項，包括本地MLX、Transformers、vLLM或遠端Responses API。

來源Hugging Face Blog

Reachy Mini機器人現在可以完全在本地執行對話管道，無需將音訊傳送到外部伺服器。這一變化由語音轉語音庫實現，該庫採用級聯架構：語音活動檢測（VAD）、語音轉文本（STT）、大語言模型（LLM）和文本轉語音（TTS）。整個管道透過一個與Realtime API相容的WebSocket端點提供服務。

要開始使用，首先需要安裝語音轉語音庫並啟動LLM伺服器。推薦使用llama.cpp執行Gemma 4模型，因為它效能優秀且易於設定。啟動命令為：llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full。該命令會從Hugging Face Hub下載模型，並使用64k上下文視窗和Flash Attention以加速推理。

接下來，在另一個終端中執行語音轉語音命令：speech-to-speech --responses_api_base_url "http://127.0.0.1:8080" --responses_api_api_key "" --mode local。首次執行時，它會下載Parakeet-TDT 0.6B v3 STT模型和Qwen3-TTS模型。之後，你可以透過終端與模型對話，或將他作為伺服器連線到Reachy Mini機器人。

執行完全本地對話的優勢包括隱私保護（音訊不離開網路）、無API費用以及完全控制管道元件的自由。你可以根據需要替換VAD、STT、LLM或TTS模型。

對於LLM，語音轉語音庫支援多種後端。例如，可以使用vLLM執行Qwen3-4B模型，並透過Responses API協議與語音迴圈通訊。vLLM伺服器需要啟用自動工具選擇和工具呼叫解析器，並停用思考通道以減少延遲。另一種選擇是使用Hugging Face推理端點或推理提供商，它們提供託管的GPU資源。甚至可以直接使用OpenAI等商業API，但這會犧牲本地性。

如果使用Mac，可以利用MLX後端以最低延遲執行Qwen3-4B。對於CUDA系統，可以使用Transformers後端。無論哪種方式，語音引擎繫結到區域網地址後，機器人可以透過網路連線。

最終，Reachy Mini可以在本地實現完整的語音迴圈：Silero VAD進行語音檢測，Parakeet-TDT進行轉錄，LLM進行推理，Qwen3-TTS進行語音合成。使用者可以根據需求自由組合這些元件。