2026-06-13站内改写2 分钟阅读更新: 2026-06-13

Whissle Gateway – 在500MB Docker中本地运行多模态语音AI

Whissle Gateway是一个轻量级的Docker容器，仅需一个命令即可在本地运行多模态语音AI，包括ASR、TTS、语音通话、说话人识别、元数据分析及AI辅导等功能。模型自动下载，无需云依赖，支持多种硬件配置。

来源Hacker News AI作者: ksingla025

Whissle Gateway 是一款轻量级的 Docker 容器，旨在让用户能够在本地环境中运行多模态语音 AI 系统，而无需依赖云服务。它的核心优势在于极低的部署门槛：只需一条 Docker 命令，即可启动包括自动语音识别（ASR）、文本转语音（TTS）、语音通话、说话人分离（diarization）、元数据提取以及 AI 辅导在内的完整服务。所有模型在首次运行时自动下载并缓存，之后即使容器重启也能复用，从而大幅简化了运维流程。

快速上手

用户只需执行以下命令即可启动容器：

docker run -d --name whissle \
  -p 9000:9000 -p 8001:8001 -p 8003:8003 \
  -v whissle-models:/models -v whissle-data:/data \
  -e VARIANT=en-full \
  -e ANTHROPIC_API_KEY=your-key \
  whissleasr/whissle-gateway:latest

首次运行时会下载约2GB的模型文件（以 en-full 变体为例），之后便可在本地使用。容器内置了多个微服务，包括 ASR（端口 8001）、TTS（端口 8003）、Agent（端口 8765）、Pipecat（端口 8000）以及主网关（端口 9000），同时附带 PostgreSQL 数据库用于数据持久化。

丰富的 API 接口

Whissle Gateway 提供了五种交互方式：批量 REST 请求、流式 WebSocket、文本转语音、语音通话，以及智能代理。其中，POST /transcribe 接口最为核心，支持上传音频文件并返回带时间戳的转录文本，同时可开启说话人分离、标点恢复、逆文本标准化（ITN）等功能。此外，还可以通过 summarize 参数启用 AI 分析，支持销售辅导、催收合规、通用摘要以及自定义提示词等多种模式。

强大的元数据提取

系统集成了多个专用模型，能够在不额外调用外部 API 的情况下，从一次 ASR 前向传播中提取丰富的元数据。例如，en-in-tech-misc 模型可识别 26 种行为代码、6 种情绪、角色（面试官/被面试者）、年龄段、性别以及实体信息。其他模型如 hinglish-loans 专为印地语-英语混合的催收场景设计，而 zh 模型则支持普通话的方言检测（北方/南方）。whissle-large 模型则支持 23 种语言，包含 5500+ 动作标记。

灵活的变体与硬件支持

针对不同使用场景，Whissle Gateway 提供了多种变体（variant），从轻量级的 en-lite（约500MB）到全功能的 all（约6GB），用户可根据语言需求和计算资源自行选择。系统能自动检测 GPU 并利用 ONNX Runtime 加速，从普通的笔记本电脑 CPU 到高端 GPU（如 H100）都能运行，并发数从 1 到 500 不等。

架构与持久化

整个系统打包在单个 Docker 容器中，内部组件通过端口通信。模型文件存储于 whissle-models 卷中，而对话记录、分析结果、认证令牌等数据则保存在 whissle-data 卷中，确保重启后数据不丢失。

Whissle Gateway 尤其适合需要本地化部署的联络中心、销售智能分析、行为 AI 研究等场景。其“一次部署，随处运行”的设计理念，使得从开发者到企业用户都能快速搭建起一套完整的语音 AI 流水线。