AI News HubLIVE
站内改写2 分鐘閱讀

Whissle Gateway – 在500MB Docker中本地執行多模態語音AI

Whissle Gateway是一個輕量級的Docker容器,僅需一個命令即可在本地執行多模態語音AI,包括ASR、TTS、語音通話、說話人識別、後設資料分析及AI輔導等功能。模型自動下載,無需雲依賴,支援多種硬體配置。

來源Hacker News AI作者: ksingla025

Whissle Gateway 是一款輕量級的 Docker 容器,旨在讓使用者能夠在本地環境中執行多模態語音 AI 系統,而無需依賴雲服務。它的核心優勢在於極低的部署門檻:只需一條 Docker 命令,即可啟動包括自動語音識別(ASR)、文本轉語音(TTS)、語音通話、說話人分離(diarization)、後設資料提取以及 AI 輔導在內的完整服務。所有模型在首次執行時自動下載並快取,之後即使容器重啟也能複用,從而大幅簡化了運維流程。

快速上手

使用者只需執行以下命令即可啟動容器:

docker run -d --name whissle \
  -p 9000:9000 -p 8001:8001 -p 8003:8003 \
  -v whissle-models:/models -v whissle-data:/data \
  -e VARIANT=en-full \
  -e ANTHROPIC_API_KEY=your-key \
  whissleasr/whissle-gateway:latest

首次執行時會下載約2GB的模型檔案(以 en-full 變體為例),之後便可在本地使用。容器內建了多個微服務,包括 ASR(埠 8001)、TTS(埠 8003)、Agent(埠 8765)、Pipecat(埠 8000)以及主閘道器(埠 9000),同時附帶 PostgreSQL 資料庫用於資料持久化。

豐富的 API 介面

Whissle Gateway 提供了五種互動方式:批次 REST 請求、流式 WebSocket、文本轉語音、語音通話,以及智慧代理。其中,POST /transcribe 介面最為核心,支援上傳音訊檔案並返回帶時間戳的轉錄文本,同時可開啟說話人分離、標點恢復、逆文本標準化(ITN)等功能。此外,還可以透過 summarize 引數啟用 AI 分析,支援銷售輔導、催收合規、通用摘要以及自定義提示詞等多種模式。

強大的後設資料提取

系統整合了多個專用模型,能夠在不額外呼叫外部 API 的情況下,從一次 ASR 前向傳播中提取豐富的後設資料。例如,en-in-tech-misc 模型可識別 26 種行為程式碼、6 種情緒、角色(面試官/被面試者)、年齡段、性別以及實體資訊。其他模型如 hinglish-loans 專為印地語-英語混合的催收場景設計,而 zh 模型則支援普通話的方言檢測(北方/南方)。whissle-large 模型則支援 23 種語言,包含 5500+ 動作標記。

靈活的變體與硬體支援

針對不同使用場景,Whissle Gateway 提供了多種變體(variant),從輕量級的 en-lite(約500MB)到全功能的 all(約6GB),使用者可根據語言需求和計算資源自行選擇。系統能自動檢測 GPU 並利用 ONNX Runtime 加速,從普通的筆記型電腦 CPU 到高階 GPU(如 H100)都能執行,併發數從 1 到 500 不等。

架構與持久化

整個系統打包在單個 Docker 容器中,內部元件透過埠通訊。模型檔案儲存於 whissle-models 卷中,而對話記錄、分析結果、認證令牌等資料則儲存在 whissle-data 卷中,確保重啟後資料不丟失。

Whissle Gateway 尤其適合需要本地化部署的聯絡中心、銷售智慧分析、行為 AI 研究等場景。其“一次部署,隨處執行”的設計理念,使得從開發者到企業使用者都能快速搭建起一套完整的語音 AI 流水線。