2026-06-13站内改写2 分鐘閱讀更新: 2026-06-13

Whissle Gateway – 在500MB Docker中本地執行多模態語音AI

Whissle Gateway是一個輕量級的Docker容器，僅需一個命令即可在本地執行多模態語音AI，包括ASR、TTS、語音通話、說話人識別、後設資料分析及AI輔導等功能。模型自動下載，無需雲依賴，支援多種硬體配置。

來源Hacker News AI作者: ksingla025

Whissle Gateway 是一款輕量級的 Docker 容器，旨在讓使用者能夠在本地環境中執行多模態語音 AI 系統，而無需依賴雲服務。它的核心優勢在於極低的部署門檻：只需一條 Docker 命令，即可啟動包括自動語音識別（ASR）、文本轉語音（TTS）、語音通話、說話人分離（diarization）、後設資料提取以及 AI 輔導在內的完整服務。所有模型在首次執行時自動下載並快取，之後即使容器重啟也能複用，從而大幅簡化了運維流程。

快速上手

使用者只需執行以下命令即可啟動容器：

docker run -d --name whissle \
  -p 9000:9000 -p 8001:8001 -p 8003:8003 \
  -v whissle-models:/models -v whissle-data:/data \
  -e VARIANT=en-full \
  -e ANTHROPIC_API_KEY=your-key \
  whissleasr/whissle-gateway:latest

首次執行時會下載約2GB的模型檔案（以 en-full 變體為例），之後便可在本地使用。容器內建了多個微服務，包括 ASR（埠 8001）、TTS（埠 8003）、Agent（埠 8765）、Pipecat（埠 8000）以及主閘道器（埠 9000），同時附帶 PostgreSQL 資料庫用於資料持久化。

豐富的 API 介面

Whissle Gateway 提供了五種互動方式：批次 REST 請求、流式 WebSocket、文本轉語音、語音通話，以及智慧代理。其中，POST /transcribe 介面最為核心，支援上傳音訊檔案並返回帶時間戳的轉錄文本，同時可開啟說話人分離、標點恢復、逆文本標準化（ITN）等功能。此外，還可以透過 summarize 引數啟用 AI 分析，支援銷售輔導、催收合規、通用摘要以及自定義提示詞等多種模式。

強大的後設資料提取

系統整合了多個專用模型，能夠在不額外呼叫外部 API 的情況下，從一次 ASR 前向傳播中提取豐富的後設資料。例如，en-in-tech-misc 模型可識別 26 種行為程式碼、6 種情緒、角色（面試官/被面試者）、年齡段、性別以及實體資訊。其他模型如 hinglish-loans 專為印地語-英語混合的催收場景設計，而 zh 模型則支援普通話的方言檢測（北方/南方）。whissle-large 模型則支援 23 種語言，包含 5500+ 動作標記。

靈活的變體與硬體支援

針對不同使用場景，Whissle Gateway 提供了多種變體（variant），從輕量級的 en-lite（約500MB）到全功能的 all（約6GB），使用者可根據語言需求和計算資源自行選擇。系統能自動檢測 GPU 並利用 ONNX Runtime 加速，從普通的筆記型電腦 CPU 到高階 GPU（如 H100）都能執行，併發數從 1 到 500 不等。

架構與持久化

整個系統打包在單個 Docker 容器中，內部元件透過埠通訊。模型檔案儲存於 whissle-models 卷中，而對話記錄、分析結果、認證令牌等資料則儲存在 whissle-data 卷中，確保重啟後資料不丟失。

Whissle Gateway 尤其適合需要本地化部署的聯絡中心、銷售智慧分析、行為 AI 研究等場景。其“一次部署，隨處執行”的設計理念，使得從開發者到企業使用者都能快速搭建起一套完整的語音 AI 流水線。