AI News HubLIVE
站内改写2 分钟阅读

Whissle Gateway – 在500MB Docker中本地运行多模态语音AI

Whissle Gateway是一个轻量级的Docker容器,仅需一个命令即可在本地运行多模态语音AI,包括ASR、TTS、语音通话、说话人识别、元数据分析及AI辅导等功能。模型自动下载,无需云依赖,支持多种硬件配置。

来源Hacker News AI作者: ksingla025

Whissle Gateway 是一款轻量级的 Docker 容器,旨在让用户能够在本地环境中运行多模态语音 AI 系统,而无需依赖云服务。它的核心优势在于极低的部署门槛:只需一条 Docker 命令,即可启动包括自动语音识别(ASR)、文本转语音(TTS)、语音通话、说话人分离(diarization)、元数据提取以及 AI 辅导在内的完整服务。所有模型在首次运行时自动下载并缓存,之后即使容器重启也能复用,从而大幅简化了运维流程。

快速上手

用户只需执行以下命令即可启动容器:

docker run -d --name whissle \
  -p 9000:9000 -p 8001:8001 -p 8003:8003 \
  -v whissle-models:/models -v whissle-data:/data \
  -e VARIANT=en-full \
  -e ANTHROPIC_API_KEY=your-key \
  whissleasr/whissle-gateway:latest

首次运行时会下载约2GB的模型文件(以 en-full 变体为例),之后便可在本地使用。容器内置了多个微服务,包括 ASR(端口 8001)、TTS(端口 8003)、Agent(端口 8765)、Pipecat(端口 8000)以及主网关(端口 9000),同时附带 PostgreSQL 数据库用于数据持久化。

丰富的 API 接口

Whissle Gateway 提供了五种交互方式:批量 REST 请求、流式 WebSocket、文本转语音、语音通话,以及智能代理。其中,POST /transcribe 接口最为核心,支持上传音频文件并返回带时间戳的转录文本,同时可开启说话人分离、标点恢复、逆文本标准化(ITN)等功能。此外,还可以通过 summarize 参数启用 AI 分析,支持销售辅导、催收合规、通用摘要以及自定义提示词等多种模式。

强大的元数据提取

系统集成了多个专用模型,能够在不额外调用外部 API 的情况下,从一次 ASR 前向传播中提取丰富的元数据。例如,en-in-tech-misc 模型可识别 26 种行为代码、6 种情绪、角色(面试官/被面试者)、年龄段、性别以及实体信息。其他模型如 hinglish-loans 专为印地语-英语混合的催收场景设计,而 zh 模型则支持普通话的方言检测(北方/南方)。whissle-large 模型则支持 23 种语言,包含 5500+ 动作标记。

灵活的变体与硬件支持

针对不同使用场景,Whissle Gateway 提供了多种变体(variant),从轻量级的 en-lite(约500MB)到全功能的 all(约6GB),用户可根据语言需求和计算资源自行选择。系统能自动检测 GPU 并利用 ONNX Runtime 加速,从普通的笔记本电脑 CPU 到高端 GPU(如 H100)都能运行,并发数从 1 到 500 不等。

架构与持久化

整个系统打包在单个 Docker 容器中,内部组件通过端口通信。模型文件存储于 whissle-models 卷中,而对话记录、分析结果、认证令牌等数据则保存在 whissle-data 卷中,确保重启后数据不丢失。

Whissle Gateway 尤其适合需要本地化部署的联络中心、销售智能分析、行为 AI 研究等场景。其“一次部署,随处运行”的设计理念,使得从开发者到企业用户都能快速搭建起一套完整的语音 AI 流水线。