2026-05-27 08:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Reachy Mini实现完全本地运行

本文详细介绍了如何为Reachy Mini机器人部署完全本地的语音对话管道，无需云端或API密钥。采用级联方式，结合VAD、STT、LLM和TTS，推荐使用llama.cpp与Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多种LLM运行选项，包括本地MLX、Transformers、vLLM或远程Responses API。

来源Hugging Face Blog

Reachy Mini机器人现在可以完全在本地运行对话管道，无需将音频发送到外部服务器。这一变化由语音转语音库实现，该库采用级联架构：语音活动检测（VAD）、语音转文本（STT）、大语言模型（LLM）和文本转语音（TTS）。整个管道通过一个与Realtime API兼容的WebSocket端点提供服务。

要开始使用，首先需要安装语音转语音库并启动LLM服务器。推荐使用llama.cpp运行Gemma 4模型，因为它性能优秀且易于设置。启动命令为：llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full。该命令会从Hugging Face Hub下载模型，并使用64k上下文窗口和Flash Attention以加速推理。

接下来，在另一个终端中运行语音转语音命令：speech-to-speech --responses_api_base_url "http://127.0.0.1:8080" --responses_api_api_key "" --mode local。首次运行时，它会下载Parakeet-TDT 0.6B v3 STT模型和Qwen3-TTS模型。之后，你可以通过终端与模型对话，或将他作为服务器连接到Reachy Mini机器人。

运行完全本地对话的优势包括隐私保护（音频不离开网络）、无API费用以及完全控制管道组件的自由。你可以根据需要替换VAD、STT、LLM或TTS模型。

对于LLM，语音转语音库支持多种后端。例如，可以使用vLLM运行Qwen3-4B模型，并通过Responses API协议与语音循环通信。vLLM服务器需要启用自动工具选择和工具调用解析器，并禁用思考通道以减少延迟。另一种选择是使用Hugging Face推理端点或推理提供商，它们提供托管的GPU资源。甚至可以直接使用OpenAI等商业API，但这会牺牲本地性。

如果使用Mac，可以利用MLX后端以最低延迟运行Qwen3-4B。对于CUDA系统，可以使用Transformers后端。无论哪种方式，语音引擎绑定到局域网地址后，机器人可以通过网络连接。

最终，Reachy Mini可以在本地实现完整的语音循环：Silero VAD进行语音检测，Parakeet-TDT进行转录，LLM进行推理，Qwen3-TTS进行语音合成。用户可以根据需求自由组合这些组件。