2026-06-13站内改写2 分鐘閱讀更新: 2026-06-13

Whissle Gateway – 在500MB Docker中本地運行多模態語音AI

Whissle Gateway是一個輕量級的Docker容器，僅需一個命令即可在本地運行多模態語音AI，包括ASR、TTS、語音通話、説話人識別、元數據分析及AI輔導等功能。模型自動下載，無需雲依賴，支持多種硬件配置。

來源Hacker News AI作者: ksingla025

Whissle Gateway 是一款輕量級的 Docker 容器，旨在讓用户能夠在本地環境中運行多模態語音 AI 系統，而無需依賴雲服務。它的核心優勢在於極低的部署門檻：只需一條 Docker 命令，即可啓動包括自動語音識別（ASR）、文本轉語音（TTS）、語音通話、説話人分離（diarization）、元數據提取以及 AI 輔導在內的完整服務。所有模型在首次運行時自動下載並緩存，之後即使容器重啓也能複用，從而大幅簡化了運維流程。

快速上手

用户只需執行以下命令即可啓動容器：

docker run -d --name whissle \
  -p 9000:9000 -p 8001:8001 -p 8003:8003 \
  -v whissle-models:/models -v whissle-data:/data \
  -e VARIANT=en-full \
  -e ANTHROPIC_API_KEY=your-key \
  whissleasr/whissle-gateway:latest

首次運行時會下載約2GB的模型文件（以 en-full 變體為例），之後便可在本地使用。容器內置了多個微服務，包括 ASR（端口 8001）、TTS（端口 8003）、Agent（端口 8765）、Pipecat（端口 8000）以及主網關（端口 9000），同時附帶 PostgreSQL 數據庫用於數據持久化。

豐富的 API 接口

Whissle Gateway 提供了五種交互方式：批量 REST 請求、流式 WebSocket、文本轉語音、語音通話，以及智能代理。其中，POST /transcribe 接口最為核心，支持上傳音頻文件並返回帶時間戳的轉錄文本，同時可開啓説話人分離、標點恢復、逆文本標準化（ITN）等功能。此外，還可以通過 summarize 參數啓用 AI 分析，支持銷售輔導、催收合規、通用摘要以及自定義提示詞等多種模式。

強大的元數據提取

系統集成了多個專用模型，能夠在不額外調用外部 API 的情況下，從一次 ASR 前向傳播中提取豐富的元數據。例如，en-in-tech-misc 模型可識別 26 種行為代碼、6 種情緒、角色（面試官/被面試者）、年齡段、性別以及實體信息。其他模型如 hinglish-loans 專為印地語-英語混合的催收場景設計，而 zh 模型則支持普通話的方言檢測（北方/南方）。whissle-large 模型則支持 23 種語言，包含 5500+ 動作標記。

靈活的變體與硬件支持

針對不同使用場景，Whissle Gateway 提供了多種變體（variant），從輕量級的 en-lite（約500MB）到全功能的 all（約6GB），用户可根據語言需求和計算資源自行選擇。系統能自動檢測 GPU 並利用 ONNX Runtime 加速，從普通的筆記本電腦 CPU 到高端 GPU（如 H100）都能運行，併發數從 1 到 500 不等。

架構與持久化

整個系統打包在單個 Docker 容器中，內部組件通過端口通信。模型文件存儲於 whissle-models 卷中，而對話記錄、分析結果、認證令牌等數據則保存在 whissle-data 卷中，確保重啓後數據不丟失。

Whissle Gateway 尤其適合需要本地化部署的聯絡中心、銷售智能分析、行為 AI 研究等場景。其“一次部署，隨處運行”的設計理念，使得從開發者到企業用户都能快速搭建起一套完整的語音 AI 流水線。