2026-05-27 08:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Reachy Mini實現完全本地運行

本文詳細介紹瞭如何為Reachy Mini機器人部署完全本地的語音對話管道，無需雲端或API密鑰。採用級聯方式，結合VAD、STT、LLM和TTS，推薦使用llama.cpp與Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多種LLM運行選項，包括本地MLX、Transformers、vLLM或遠程Responses API。

來源Hugging Face Blog

Reachy Mini機器人現在可以完全在本地運行對話管道，無需將音頻發送到外部服務器。這一變化由語音轉語音庫實現，該庫採用級聯架構：語音活動檢測（VAD）、語音轉文本（STT）、大語言模型（LLM）和文本轉語音（TTS）。整個管道通過一個與Realtime API兼容的WebSocket端點提供服務。

要開始使用，首先需要安裝語音轉語音庫並啓動LLM服務器。推薦使用llama.cpp運行Gemma 4模型，因為它性能優秀且易於設置。啓動命令為：llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full。該命令會從Hugging Face Hub下載模型，並使用64k上下文窗口和Flash Attention以加速推理。

接下來，在另一個終端中運行語音轉語音命令：speech-to-speech --responses_api_base_url "http://127.0.0.1:8080" --responses_api_api_key "" --mode local。首次運行時，它會下載Parakeet-TDT 0.6B v3 STT模型和Qwen3-TTS模型。之後，你可以通過終端與模型對話，或將他作為服務器連接到Reachy Mini機器人。

運行完全本地對話的優勢包括隱私保護（音頻不離開網絡）、無API費用以及完全控制管道組件的自由。你可以根據需要替換VAD、STT、LLM或TTS模型。

對於LLM，語音轉語音庫支持多種後端。例如，可以使用vLLM運行Qwen3-4B模型，並通過Responses API協議與語音循環通信。vLLM服務器需要啓用自動工具選擇和工具調用解析器，並禁用思考通道以減少延遲。另一種選擇是使用Hugging Face推理端點或推理提供商，它們提供託管的GPU資源。甚至可以直接使用OpenAI等商業API，但這會犧牲本地性。

如果使用Mac，可以利用MLX後端以最低延遲運行Qwen3-4B。對於CUDA系統，可以使用Transformers後端。無論哪種方式，語音引擎綁定到局域網地址後，機器人可以通過網絡連接。

最終，Reachy Mini可以在本地實現完整的語音循環：Silero VAD進行語音檢測，Parakeet-TDT進行轉錄，LLM進行推理，Qwen3-TTS進行語音合成。用户可以根據需求自由組合這些組件。