AI News HubLIVE
サイト内リライト2 分で読了

Wan-Streamer v0.1: エンドツーエンドのリアルタイム対話基盤モデル

Wan-Streamerは、リアルタイムで低遅延な全二重音声・映像対話のために設計された、ネイティブストリーミングのエンドツーエンド対話基盤モデルです。単一のTransformer内で言語、音声、映像をシームレスにモデル化し、ブロック因果注意機構を使用してインクリメンタルストリーミングを実現します。モデル側の応答遅延は約200ミリ秒、総対話遅延は約550ミリ秒で、サブ秒の全二重通信をサポートします。

ソースarXiv Computer Vision著者: Lianghua Huang, Zhifan Wu, Wei Wang, Yupeng Shi, Mengyang Feng, Junjie He, Chenwei Xie, Yu Liu, Jingren Zhou, Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng, Zoubin Bi

Wan-Streamer v0.1は、Lianghua Huang氏を含む24名の研究者によって提案された、ネイティブストリーミングのエンドツーエンド対話基盤モデルであり、リアルタイムで低遅延な全二重音声・映像対話向けに設計されています。このモデルは、単一のTransformerフレームワーク内で言語、音声、映像の入出力を統一的にモデル化し、シーケンスを視覚、音声、テキストの入力トークンと出力トークンがインターリーブされた形で表現し、ブロック因果注意機構によってインクリメンタルストリーミングを調整します。独立したVAD、ASR、言語、TTS、音声駆動アニメーション、映像生成モジュールに依存するカスケード型対話システムとは異なり、Wan-Streamerは外部の言語、音声、アバター、映像生成モジュールを必要としません。知覚、推論、生成、応答タイミング、ターン管理、クロスモーダル同期はすべて単一の統一モデル内で共同学習され、パイプライン遅延とエラー蓄積を低減します。自然な音声映像応答性をサポートするため、研究チームはストリーミング可能性を中心にスタック全体を再設計しました。因果エンコーダ、因果デコーダ、ブロック因果注意機構、低遅延マルチモーダルトークンスケジューリングにより、25fpsで160ミリ秒という短いストリーミングユニットを実現しています。Wan-Streamerのモデル側応答遅延は約200ミリ秒であり、350ミリ秒の双方向ネットワーク遅延と組み合わせると総対話遅延は約550ミリ秒となり、サブ秒の全二重音声映像通信をサポートします。これらの成果により、Wan-Streamerは低遅延ストリーミング対話のための統一されたエンドツーエンドのマルチモーダル対話基盤モデルとして位置づけられます。関連論文はarXivに提出され、プロジェクトのウェブサイトも公開されています。このモデルは、単一のフレームワーク内で知覚、推論、生成、対話管理を共同学習することで、カスケードアーキテクチャで一般的なエラー伝播や遅延蓄積の問題を回避します。精巧に設計された因果エンコーダとデコーダ、そして革新的なブロック因果注意機構により、Wan-Streamerは連続する音声映像ストリームを極めて低い遅延で処理できます。低遅延マルチモーダルトークンスケジューリングアルゴリズムはストリーミング性能をさらに最適化し、25フレーム毎秒でわずか160ミリ秒のストリーミングユニットを実現します。この技術的ブレークスルーは、次世代の対話システム、仮想アシスタント、リアルタイムインタラクティブアプリケーションの構築に多大な影響を与えるでしょう。