Wan-Streamer v0.1: エンドツーエンドのリアルタイム対話基盤モデル
Wan-Streamerは、リアルタイムで低遅延な全二重音声・映像対話のために設計された、ネイティブストリーミングのエンドツーエンド対話基盤モデルです。単一のTransformer内で言語、音声、映像をシームレスにモデル化し、ブロック因果注意機構を使用してインクリメンタルストリーミングを実現します。モデル側の応答遅延は約200ミリ秒、総対話遅延は約550ミリ秒で、サブ秒の全二重通信をサポートします。
Wan-Streamer v0.1は、Lianghua Huang氏を含む24名の研究者によって提案された、ネイティブストリーミングのエンドツーエンド対話基盤モデルであり、リアルタイムで低遅延な全二重音声・映像対話向けに設計されています。このモデルは、単一のTransformerフレームワーク内で言語、音声、映像の入出力を統一的にモデル化し、シーケンスを視覚、音声、テキストの入力トークンと出力トークンがインターリーブされた形で表現し、ブロック因果注意機構によってインクリメンタルストリーミングを調整します。独立したVAD、ASR、言語、TTS、音声駆動アニメーション、映像生成モジュールに依存するカスケード型対話システムとは異なり、Wan-Streamerは外部の言語、音声、アバター、映像生成モジュールを必要としません。知覚、推論、生成、応答タイミング、ターン管理、クロスモーダル同期はすべて単一の統一モデル内で共同学習され、パイプライン遅延とエラー蓄積を低減します。自然な音声映像応答性をサポートするため、研究チームはストリーミング可能性を中心にスタック全体を再設計しました。因果エンコーダ、因果デコーダ、ブロック因果注意機構、低遅延マルチモーダルトークンスケジューリングにより、25fpsで160ミリ秒という短いストリーミングユニットを実現しています。Wan-Streamerのモデル側応答遅延は約200ミリ秒であり、350ミリ秒の双方向ネットワーク遅延と組み合わせると総対話遅延は約550ミリ秒となり、サブ秒の全二重音声映像通信をサポートします。これらの成果により、Wan-Streamerは低遅延ストリーミング対話のための統一されたエンドツーエンドのマルチモーダル対話基盤モデルとして位置づけられます。関連論文はarXivに提出され、プロジェクトのウェブサイトも公開されています。このモデルは、単一のフレームワーク内で知覚、推論、生成、対話管理を共同学習することで、カスケードアーキテクチャで一般的なエラー伝播や遅延蓄積の問題を回避します。精巧に設計された因果エンコーダとデコーダ、そして革新的なブロック因果注意機構により、Wan-Streamerは連続する音声映像ストリームを極めて低い遅延で処理できます。低遅延マルチモーダルトークンスケジューリングアルゴリズムはストリーミング性能をさらに最適化し、25フレーム毎秒でわずか160ミリ秒のストリーミングユニットを実現します。この技術的ブレークスルーは、次世代の対話システム、仮想アシスタント、リアルタイムインタラクティブアプリケーションの構築に多大な影響を与えるでしょう。