2026-06-13站内改写2 分で読了更新: 2026-06-13

Whissle Gateway – 500MBのDockerでマルチモーダル音声AIをローカル実行

Whissle Gatewayは、1つのDockerコマンドでASR、TTS、音声通話、話者分離、メタデータ分析、AIコーチングなど、マルチモーダル音声AIをローカルで実行できる軽量コンテナです。モデルは自動ダウンロードされ、クラウド依存はありません。CPUからハイエンドGPUまで幅広いハードウェアに対応します。

ソースHacker News AI著者: ksingla025

記事インテリジェンス

エンジニア上級

要点

単一のDockerコマンドで実行でき、モデルは自動ダウンロード・キャッシュされ、クラウド依存なし。
ASR、TTS、Pipecat、Agentなどのサービスが統合され、REST、WebSocket、音声通話APIをサポート。
感情、行動、役割、年齢、性別などのリッチなメタデータ抽出と、セールスコーチング、債権回収コンプライアンス、要約などのAI分析モード。
CPUラップトップからGPUクラスターまで対応し、ハードウェアに応じて1～500以上の同時実行が可能。

重要な理由

このニュースが重要なのは、単一のDockerコマンドで実行でき、モデルは自動ダウンロード・キャッシュされ、クラウド依存なしためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

Whissle Gatewayは、1つのDockerコマンドでマルチモーダル音声AIをローカル環境で実行できる軽量コンテナです。クラウドサービスに依存せず、初回起動時にモデルを自動ダウンロード・キャッシュするため、すぐに使い始められます。このソリューションは、自動音声認識（ASR）、テキスト読み上げ（TTS）、音声通話、話者分離、メタデータ抽出、AIコーチングを統合的に提供します。

クイックスタート

以下のコマンドでコンテナを起動します（例：en-fullバリアント）：

docker run -d --name whissle \
  -p 9000:9000 -p 8001:8001 -p 8003:8003 \
  -v whissle-models:/models -v whissle-data:/data \
  -e VARIANT=en-full \
  -e ANTHROPIC_API_KEY=your-key \
  whissleasr/whissle-gateway:latest

初回起動時には約2GBのモデルがダウンロードされ、以降はキャッシュが使用されます。コンテナ内には、ASR（ポート8001）、TTS（ポート8003）、Agent（ポート8765）、Pipecat（ポート8000）、Gateway（ポート9000）といった複数のサービスが含まれ、PostgreSQLデータベースも内蔵されています。

豊富なAPI

Whissle Gatewayは、バッチREST、ストリーミングWebSocket、テキスト読み上げ、音声通話、インテリジェントエージェントの5つのインターフェースを提供します。POST /transcribe エンドポイントは特に強力で、音声ファイルをアップロードすると、タイムスタンプ付きの文字起こしに加え、話者分離、句読点復元、逆テキスト正規化（ITN）などを実行できます。summarize パラメータを使用することで、セールスコーチング、債権回収コンプライアンス、一般要約、カスタムプロンプトなど、AIによる分析を追加することも可能です。

高度なメタデータ抽出

システムには複数の専用モデルが組み込まれており、外部APIを呼び出すことなく、1回のASRフォワードパスで豊富なメタデータを抽出します。例えば、en-in-tech-misc モデルは26種類の行動コード、6つの感情、役割（面接官/被面接者）、年齢層、性別、エンティティを識別します。hinglish-loans モデルはヒンディー語-英語混在の債権回収シナリオ向けに設計され、zh モデルは中国語の方言検出（北方/南方）をサポートします。whissle-large モデルは23言語をカバーし、5,500以上のアクショントークンを持ちます。

バリアントとハードウェアサポート

利用シーンに応じて、軽量な en-lite（約500MB）からフル機能の all（約6GB）まで、複数のバリアントが用意されています。システムは自動的にGPUを検出し、ONNX Runtimeを活用して高速化します。一般的なノートPCのCPUからH100などのハイエンドGPUまで幅広いハードウェアで動作し、同時実行数は1～500以上に及びます。

アーキテクチャと永続化

システム全体が1つのDockerコンテナにパッケージ化され、各サービスはポートを介して通信します。モデルファイルは whissle-models ボリュームに、会話ログや認証トークンなどのデータは whissle-data ボリュームに保存され、コンテナ再起動後も永続化されます。

Whissle Gatewayは、ローカル展開が求められるコンタクトセンター、営業インテリジェンス、行動AI研究などの分野に最適です。「ワンコマンドでどこでも実行」という設計思想により、開発者から企業ユーザーまで、完全な音声AIパイプラインを迅速に構築できます。