Whissle Gateway – 500MBのDockerでマルチモーダル音声AIをローカル実行
Whissle Gatewayは、1つのDockerコマンドでASR、TTS、音声通話、話者分離、メタデータ分析、AIコーチングなど、マルチモーダル音声AIをローカルで実行できる軽量コンテナです。モデルは自動ダウンロードされ、クラウド依存はありません。CPUからハイエンドGPUまで幅広いハードウェアに対応します。
Whissle Gatewayは、1つのDockerコマンドでマルチモーダル音声AIをローカル環境で実行できる軽量コンテナです。クラウドサービスに依存せず、初回起動時にモデルを自動ダウンロード・キャッシュするため、すぐに使い始められます。このソリューションは、自動音声認識(ASR)、テキスト読み上げ(TTS)、音声通話、話者分離、メタデータ抽出、AIコーチングを統合的に提供します。
クイックスタート
以下のコマンドでコンテナを起動します(例:en-fullバリアント):
docker run -d --name whissle \
-p 9000:9000 -p 8001:8001 -p 8003:8003 \
-v whissle-models:/models -v whissle-data:/data \
-e VARIANT=en-full \
-e ANTHROPIC_API_KEY=your-key \
whissleasr/whissle-gateway:latest初回起動時には約2GBのモデルがダウンロードされ、以降はキャッシュが使用されます。コンテナ内には、ASR(ポート8001)、TTS(ポート8003)、Agent(ポート8765)、Pipecat(ポート8000)、Gateway(ポート9000)といった複数のサービスが含まれ、PostgreSQLデータベースも内蔵されています。
豊富なAPI
Whissle Gatewayは、バッチREST、ストリーミングWebSocket、テキスト読み上げ、音声通話、インテリジェントエージェントの5つのインターフェースを提供します。POST /transcribe エンドポイントは特に強力で、音声ファイルをアップロードすると、タイムスタンプ付きの文字起こしに加え、話者分離、句読点復元、逆テキスト正規化(ITN)などを実行できます。summarize パラメータを使用することで、セールスコーチング、債権回収コンプライアンス、一般要約、カスタムプロンプトなど、AIによる分析を追加することも可能です。
高度なメタデータ抽出
システムには複数の専用モデルが組み込まれており、外部APIを呼び出すことなく、1回のASRフォワードパスで豊富なメタデータを抽出します。例えば、en-in-tech-misc モデルは26種類の行動コード、6つの感情、役割(面接官/被面接者)、年齢層、性別、エンティティを識別します。hinglish-loans モデルはヒンディー語-英語混在の債権回収シナリオ向けに設計され、zh モデルは中国語の方言検出(北方/南方)をサポートします。whissle-large モデルは23言語をカバーし、5,500以上のアクショントークンを持ちます。
バリアントとハードウェアサポート
利用シーンに応じて、軽量な en-lite(約500MB)からフル機能の all(約6GB)まで、複数のバリアントが用意されています。システムは自動的にGPUを検出し、ONNX Runtimeを活用して高速化します。一般的なノートPCのCPUからH100などのハイエンドGPUまで幅広いハードウェアで動作し、同時実行数は1~500以上に及びます。
アーキテクチャと永続化
システム全体が1つのDockerコンテナにパッケージ化され、各サービスはポートを介して通信します。モデルファイルは whissle-models ボリュームに、会話ログや認証トークンなどのデータは whissle-data ボリュームに保存され、コンテナ再起動後も永続化されます。
Whissle Gatewayは、ローカル展開が求められるコンタクトセンター、営業インテリジェンス、行動AI研究などの分野に最適です。「ワンコマンドでどこでも実行」という設計思想により、開発者から企業ユーザーまで、完全な音声AIパイプラインを迅速に構築できます。