2026-06-25 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-25 17:00 UTC+9

Wan-Streamer v0.1: エンドツーエンドのリアルタイム対話基盤モデル

Wan-Streamerは、リアルタイムで低遅延な全二重音声・映像対話のために設計された、ネイティブストリーミングのエンドツーエンド対話基盤モデルです。単一のTransformer内で言語、音声、映像をシームレスにモデル化し、ブロック因果注意機構を使用してインクリメンタルストリーミングを実現します。モデル側の応答遅延は約200ミリ秒、総対話遅延は約550ミリ秒で、サブ秒の全二重通信をサポートします。

ソースarXiv Computer Vision著者: Lianghua Huang, Zhifan Wu, Wei Wang, Yupeng Shi, Mengyang Feng, Junjie He, Chenwei Xie, Yu Liu, Jingren Zhou, Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng, Zoubin Bi

記事インテリジェンス

エンジニア上級

要点

単一のTransformerが言語、音声、映像の入出力を統一し、エンドツーエンドの対話を実現。
ブロック因果注意機構と低遅延マルチモーダルトークンスケジューリングにより、25fpsで160ミリ秒のストリーミングユニットを可能に。
モデル側遅延約200ミリ秒、総対話遅延約550ミリ秒でサブ秒の全二重通信を実現。
統一モデルにより、カスケードシステムの遅延蓄積とエラー伝播を回避。

重要な理由

このニュースが重要なのは、単一のTransformerが言語、音声、映像の入出力を統一し、エンドツーエンドの対話を実現ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Wan-Streamer v0.1は、Lianghua Huang氏を含む24名の研究者によって提案された、ネイティブストリーミングのエンドツーエンド対話基盤モデルであり、リアルタイムで低遅延な全二重音声・映像対話向けに設計されています。このモデルは、単一のTransformerフレームワーク内で言語、音声、映像の入出力を統一的にモデル化し、シーケンスを視覚、音声、テキストの入力トークンと出力トークンがインターリーブされた形で表現し、ブロック因果注意機構によってインクリメンタルストリーミングを調整します。独立したVAD、ASR、言語、TTS、音声駆動アニメーション、映像生成モジュールに依存するカスケード型対話システムとは異なり、Wan-Streamerは外部の言語、音声、アバター、映像生成モジュールを必要としません。知覚、推論、生成、応答タイミング、ターン管理、クロスモーダル同期はすべて単一の統一モデル内で共同学習され、パイプライン遅延とエラー蓄積を低減します。自然な音声映像応答性をサポートするため、研究チームはストリーミング可能性を中心にスタック全体を再設計しました。因果エンコーダ、因果デコーダ、ブロック因果注意機構、低遅延マルチモーダルトークンスケジューリングにより、25fpsで160ミリ秒という短いストリーミングユニットを実現しています。Wan-Streamerのモデル側応答遅延は約200ミリ秒であり、350ミリ秒の双方向ネットワーク遅延と組み合わせると総対話遅延は約550ミリ秒となり、サブ秒の全二重音声映像通信をサポートします。これらの成果により、Wan-Streamerは低遅延ストリーミング対話のための統一されたエンドツーエンドのマルチモーダル対話基盤モデルとして位置づけられます。関連論文はarXivに提出され、プロジェクトのウェブサイトも公開されています。このモデルは、単一のフレームワーク内で知覚、推論、生成、対話管理を共同学習することで、カスケードアーキテクチャで一般的なエラー伝播や遅延蓄積の問題を回避します。精巧に設計された因果エンコーダとデコーダ、そして革新的なブロック因果注意機構により、Wan-Streamerは連続する音声映像ストリームを極めて低い遅延で処理できます。低遅延マルチモーダルトークンスケジューリングアルゴリズムはストリーミング性能をさらに最適化し、25フレーム毎秒でわずか160ミリ秒のストリーミングユニットを実現します。この技術的ブレークスルーは、次世代の対話システム、仮想アシスタント、リアルタイムインタラクティブアプリケーションの構築に多大な影響を与えるでしょう。