AI News HubLIVE
站内改写

Reachy Mini實現完全本地執行

本文詳細介紹瞭如何為Reachy Mini機器人部署完全本地的語音對話管道,無需雲端或API金鑰。採用級聯方式,結合VAD、STT、LLM和TTS,推薦使用llama.cpp與Gemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT和Qwen3-TTS。提供了多種LLM執行選項,包括本地MLX、Transformers、vLLM或遠端Responses API。

文章情報

工程師進階

要點

  • Reachy Mini現在可以完全本地執行對話,無需伺服器。
  • 級聯管道包括VAD、STT、LLM和TTS,元件可互換。
  • 推薦預設元件:Silero VAD、Parakeet-TDT STT、Qwen3-TTS。
  • LLM支援多種執行方式:本地llama.cpp、MLX、vLLM或遠端API。

為什麼重要

這條新聞值得關注,因為Reachy Mini現在可以完全本地執行對話,無需伺服器。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Reachy Mini機器人現在可以完全在本地執行對話管道,無需將音訊傳送到外部伺服器。這一變化由語音轉語音庫實現,該庫採用級聯架構:語音活動檢測(VAD)、語音轉文本(STT)、大語言模型(LLM)和文本轉語音(TTS)。整個管道透過一個與Realtime API相容的WebSocket端點提供服務。

要開始使用,首先需要安裝語音轉語音庫並啟動LLM伺服器。推薦使用llama.cpp執行Gemma 4模型,因為它效能優秀且易於設定。啟動命令為:llama-server -hf ggml-org/gemma-4-E4B-it-GGUF -np 2 -c 65536 -fa on --swa-full。該命令會從Hugging Face Hub下載模型,並使用64k上下文視窗和Flash Attention以加速推理。

接下來,在另一個終端中執行語音轉語音命令:speech-to-speech --responses_api_base_url "http://127.0.0.1:8080" --responses_api_api_key "" --mode local。首次執行時,它會下載Parakeet-TDT 0.6B v3 STT模型和Qwen3-TTS模型。之後,你可以透過終端與模型對話,或將他作為伺服器連線到Reachy Mini機器人。

執行完全本地對話的優勢包括隱私保護(音訊不離開網路)、無API費用以及完全控制管道元件的自由。你可以根據需要替換VAD、STT、LLM或TTS模型。

對於LLM,語音轉語音庫支援多種後端。例如,可以使用vLLM執行Qwen3-4B模型,並透過Responses API協議與語音迴圈通訊。vLLM伺服器需要啟用自動工具選擇和工具呼叫解析器,並停用思考通道以減少延遲。另一種選擇是使用Hugging Face推理端點或推理提供商,它們提供託管的GPU資源。甚至可以直接使用OpenAI等商業API,但這會犧牲本地性。

如果使用Mac,可以利用MLX後端以最低延遲執行Qwen3-4B。對於CUDA系統,可以使用Transformers後端。無論哪種方式,語音引擎繫結到區域網地址後,機器人可以透過網路連線。

最終,Reachy Mini可以在本地實現完整的語音迴圈:Silero VAD進行語音檢測,Parakeet-TDT進行轉錄,LLM進行推理,Qwen3-TTS進行語音合成。使用者可以根據需求自由組合這些元件。