Whissle Gateway – 在500MB Docker中本地運行多模態語音AI
Whissle Gateway是一個輕量級的Docker容器,僅需一個命令即可在本地運行多模態語音AI,包括ASR、TTS、語音通話、説話人識別、元數據分析及AI輔導等功能。模型自動下載,無需雲依賴,支持多種硬件配置。
Whissle Gateway 是一款輕量級的 Docker 容器,旨在讓用户能夠在本地環境中運行多模態語音 AI 系統,而無需依賴雲服務。它的核心優勢在於極低的部署門檻:只需一條 Docker 命令,即可啓動包括自動語音識別(ASR)、文本轉語音(TTS)、語音通話、説話人分離(diarization)、元數據提取以及 AI 輔導在內的完整服務。所有模型在首次運行時自動下載並緩存,之後即使容器重啓也能複用,從而大幅簡化了運維流程。
快速上手
用户只需執行以下命令即可啓動容器:
docker run -d --name whissle \
-p 9000:9000 -p 8001:8001 -p 8003:8003 \
-v whissle-models:/models -v whissle-data:/data \
-e VARIANT=en-full \
-e ANTHROPIC_API_KEY=your-key \
whissleasr/whissle-gateway:latest首次運行時會下載約2GB的模型文件(以 en-full 變體為例),之後便可在本地使用。容器內置了多個微服務,包括 ASR(端口 8001)、TTS(端口 8003)、Agent(端口 8765)、Pipecat(端口 8000)以及主網關(端口 9000),同時附帶 PostgreSQL 數據庫用於數據持久化。
豐富的 API 接口
Whissle Gateway 提供了五種交互方式:批量 REST 請求、流式 WebSocket、文本轉語音、語音通話,以及智能代理。其中,POST /transcribe 接口最為核心,支持上傳音頻文件並返回帶時間戳的轉錄文本,同時可開啓説話人分離、標點恢復、逆文本標準化(ITN)等功能。此外,還可以通過 summarize 參數啓用 AI 分析,支持銷售輔導、催收合規、通用摘要以及自定義提示詞等多種模式。
強大的元數據提取
系統集成了多個專用模型,能夠在不額外調用外部 API 的情況下,從一次 ASR 前向傳播中提取豐富的元數據。例如,en-in-tech-misc 模型可識別 26 種行為代碼、6 種情緒、角色(面試官/被面試者)、年齡段、性別以及實體信息。其他模型如 hinglish-loans 專為印地語-英語混合的催收場景設計,而 zh 模型則支持普通話的方言檢測(北方/南方)。whissle-large 模型則支持 23 種語言,包含 5500+ 動作標記。
靈活的變體與硬件支持
針對不同使用場景,Whissle Gateway 提供了多種變體(variant),從輕量級的 en-lite(約500MB)到全功能的 all(約6GB),用户可根據語言需求和計算資源自行選擇。系統能自動檢測 GPU 並利用 ONNX Runtime 加速,從普通的筆記本電腦 CPU 到高端 GPU(如 H100)都能運行,併發數從 1 到 500 不等。
架構與持久化
整個系統打包在單個 Docker 容器中,內部組件通過端口通信。模型文件存儲於 whissle-models 卷中,而對話記錄、分析結果、認證令牌等數據則保存在 whissle-data 卷中,確保重啓後數據不丟失。
Whissle Gateway 尤其適合需要本地化部署的聯絡中心、銷售智能分析、行為 AI 研究等場景。其“一次部署,隨處運行”的設計理念,使得從開發者到企業用户都能快速搭建起一套完整的語音 AI 流水線。