AI News HubLIVE
站内改写

Reachy Mini实现完全本地运行

本文详细介绍了如何为Reachy Mini机器人部署完全本地的语音对话管道,无需云端或API密钥。采用级联方式,结合VAD、STT、LLM和TTS,推荐使用llama.cpp与Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多种LLM运行选项,包括本地MLX、Transformers、vLLM或远程Responses API。

文章情报

工程师进阶

要点

  • Reachy Mini现在可以完全本地运行对话,无需服务器。
  • 级联管道包括VAD、STT、LLM和TTS,组件可互换。
  • 推荐默认组件:Silero VAD、Parakeet-TDT STT、Qwen3-TTS。
  • LLM支持多种运行方式:本地llama.cpp、MLX、vLLM或远程API。

为什么重要

这条新闻值得关注,因为Reachy Mini现在可以完全本地运行对话,无需服务器。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

Reachy Mini机器人现在可以完全在本地运行对话管道,无需将音频发送到外部服务器。这一变化由语音转语音库实现,该库采用级联架构:语音活动检测(VAD)、语音转文本(STT)、大语言模型(LLM)和文本转语音(TTS)。整个管道通过一个与Realtime API兼容的WebSocket端点提供服务。

要开始使用,首先需要安装语音转语音库并启动LLM服务器。推荐使用llama.cpp运行Gemma 4模型,因为它性能优秀且易于设置。启动命令为:llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full。该命令会从Hugging Face Hub下载模型,并使用64k上下文窗口和Flash Attention以加速推理。

接下来,在另一个终端中运行语音转语音命令:speech-to-speech --responses_api_base_url "http://127.0.0.1:8080" --responses_api_api_key "" --mode local。首次运行时,它会下载Parakeet-TDT 0.6B v3 STT模型和Qwen3-TTS模型。之后,你可以通过终端与模型对话,或将他作为服务器连接到Reachy Mini机器人。

运行完全本地对话的优势包括隐私保护(音频不离开网络)、无API费用以及完全控制管道组件的自由。你可以根据需要替换VAD、STT、LLM或TTS模型。

对于LLM,语音转语音库支持多种后端。例如,可以使用vLLM运行Qwen3-4B模型,并通过Responses API协议与语音循环通信。vLLM服务器需要启用自动工具选择和工具调用解析器,并禁用思考通道以减少延迟。另一种选择是使用Hugging Face推理端点或推理提供商,它们提供托管的GPU资源。甚至可以直接使用OpenAI等商业API,但这会牺牲本地性。

如果使用Mac,可以利用MLX后端以最低延迟运行Qwen3-4B。对于CUDA系统,可以使用Transformers后端。无论哪种方式,语音引擎绑定到局域网地址后,机器人可以通过网络连接。

最终,Reachy Mini可以在本地实现完整的语音循环:Silero VAD进行语音检测,Parakeet-TDT进行转录,LLM进行推理,Qwen3-TTS进行语音合成。用户可以根据需求自由组合这些组件。