Reachy Mini實現完全本地運行
本文詳細介紹瞭如何為Reachy Mini機器人部署完全本地的語音對話管道,無需雲端或API密鑰。採用級聯方式,結合VAD、STT、LLM和TTS,推薦使用llama.cpp與Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多種LLM運行選項,包括本地MLX、Transformers、vLLM或遠程Responses API。
文章情報
要點
- Reachy Mini現在可以完全本地運行對話,無需服務器。
- 級聯管道包括VAD、STT、LLM和TTS,組件可互換。
- 推薦默認組件:Silero VAD、Parakeet-TDT STT、Qwen3-TTS。
- LLM支持多種運行方式:本地llama.cpp、MLX、vLLM或遠程API。
為甚麼重要
這條新聞值得關注,因為Reachy Mini現在可以完全本地運行對話,無需服務器。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
Reachy Mini機器人現在可以完全在本地運行對話管道,無需將音頻發送到外部服務器。這一變化由語音轉語音庫實現,該庫採用級聯架構:語音活動檢測(VAD)、語音轉文本(STT)、大語言模型(LLM)和文本轉語音(TTS)。整個管道通過一個與Realtime API兼容的WebSocket端點提供服務。
要開始使用,首先需要安裝語音轉語音庫並啓動LLM服務器。推薦使用llama.cpp運行Gemma 4模型,因為它性能優秀且易於設置。啓動命令為:llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full。該命令會從Hugging Face Hub下載模型,並使用64k上下文窗口和Flash Attention以加速推理。
接下來,在另一個終端中運行語音轉語音命令:speech-to-speech --responses_api_base_url "http://127.0.0.1:8080" --responses_api_api_key "" --mode local。首次運行時,它會下載Parakeet-TDT 0.6B v3 STT模型和Qwen3-TTS模型。之後,你可以通過終端與模型對話,或將他作為服務器連接到Reachy Mini機器人。
運行完全本地對話的優勢包括隱私保護(音頻不離開網絡)、無API費用以及完全控制管道組件的自由。你可以根據需要替換VAD、STT、LLM或TTS模型。
對於LLM,語音轉語音庫支持多種後端。例如,可以使用vLLM運行Qwen3-4B模型,並通過Responses API協議與語音循環通信。vLLM服務器需要啓用自動工具選擇和工具調用解析器,並禁用思考通道以減少延遲。另一種選擇是使用Hugging Face推理端點或推理提供商,它們提供託管的GPU資源。甚至可以直接使用OpenAI等商業API,但這會犧牲本地性。
如果使用Mac,可以利用MLX後端以最低延遲運行Qwen3-4B。對於CUDA系統,可以使用Transformers後端。無論哪種方式,語音引擎綁定到局域網地址後,機器人可以通過網絡連接。
最終,Reachy Mini可以在本地實現完整的語音循環:Silero VAD進行語音檢測,Parakeet-TDT進行轉錄,LLM進行推理,Qwen3-TTS進行語音合成。用户可以根據需求自由組合這些組件。