DSA注意機構をマルチモーダルに導入、快手Keye2.0が強化推論の新パラダイムを開く
快手はKeye-VL-2.0-30B-A3Bを発表。DSA(DeepSeek Sparse Attention)をマルチモーダルに初めて適用し、256Kの超長コンテキスト深層認識を実現。長編動画の時間的理解ベンチマークでSOTAを達成し、Agent協調メカニズムを内蔵。業務応用にも展開中。
記事インテリジェンス
要点
- DSAをマルチモーダルに導入し、長編動画理解のボトルネックを解消
- TimeLensなどのベンチマークでSOTA達成、長コンテキストでも精度が逆転向上
- Agent機構(Code/Tool/Search)を初搭載し、多段階タスク計画を実現
- MOPDとContext-RLで破滅的忘却を克服し、推論信頼性を向上
重要な理由
このニュースが重要なのは、DSAをマルチモーダルに導入し、長編動画理解のボトルネックを解消ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
快手は最新のマルチモーダル大規模言語モデルKeye-VL-2.0-30B-A3Bを正式に発表した。本モデルは、DeepSeek Sparse Attention (DSA)をマルチモーダル理解に初めて組み込み、最大256Kトークンの超長文脈を効率的に処理できる。DSAメカニズムにより、長時間動画から重要な情報を抽出しつつ、計算コストを大幅に削減することが可能となった。特にプリフィル段階のコストが50%削減され、デコード複雑性が文脈長に対して緩やかに増加するため、従来のFull Attentionに伴う指数関数的コスト増大を克服している。
時間的理解ベンチマークでの性能は際立っている。TimeLensベンチマークでは、CharadesでmIoU 58.4を達成し、クローズドソースのGemini 3 Flash(61.2)に迫り、ActivityNetではGemini 2.5 Pro(58.1)とGemini 3 Flash(57.0)を上回った。QVHighlightsではmIoU 70.1を記録し、Gemini 3 Flashの49.5を大幅に凌駕した。さらに重要なのは、一般的な「長文脈劣化」現象を覆した点である。入力フレームを64から512に拡張すると、VideoMME V2の平均精度が35.34%から42.44%に上昇し、非線形スコアも18.54から24.19に向上した。これは長編動画に対する真の習熟を示している。
実例でもその能力が実証されている。9分間のアイスランド旅行Vlogを入力すると、'冷たい手'などの視覚的詳細を認識しただけでなく、因果関係を推論し、手袋の推奨、地元料理への文化的配慮、雪中の事故からレンタカーよりツアーを提案した。陶器制作動画では、十数もの工程をタイムスタンプ付きで詳細に分解した。ゲームハイライト動画では、視覚的強度、音響映像の協調、物語的文脈を分析して「崖っぷち」の瞬間を特定し、過去のセグメントと比較してその選択を正当化した。このような能力は単なるシーンタグ付けを超え、深い時間的因果推論を反映している。
同様に画期的なのは、モデルに内蔵されたAgentフレームワークである。これは知覚、計画、実行を統合する。Code Agentは強力な論理的推論を示し、LiveCodeBench v6で77.10、SWE-bench Verifiedで62.00を達成。Tool Agentは多段階API呼び出しに優れ、TAU2-Benchで82.58を記録し、複雑なワークフローでの堅牢なフォールトトレランスを示した。例えば、店舗検索、距離計算、注文作成を含むマルチスレッド要求を自律的に計画し、十数回のAPI呼び出しを自己修正しながら実行した。
破滅的忘却を起こさずにマルチタスク学習を実現するため、快手はクロスモーダルMOPD(マルチエキスパートポリシー蒸留・統合)を導入した。この手法は動的ルーティングとパラメータ融合を用いてエキスパートモデルを統合し、新規の「バケットアドバンテージスケーリング」法によりコア推論信号を増幅しテンプレートノイズを抑制する。さらにContext-RL報酬メカニズムが密で細粒度の監視を提供し、特に数学・医療・コード領域でのマルチステップ推論における幻覚を低減する。精度フィルタリングを備えた厳格なデータエンジンが高品質な学習軌跡を保証する。
Keye-VL-2.0-30B-A3Bの影響はベンチマークに留まらない。快手は本モデルを中核事業(生成的レコメンデーション、コンテンツモデレーション、ターゲット広告)に導入し、配信精度と商業収益の向上を実現している。Video×Agentの統合により、自動ハイライト抽出、編集、マーケティングコピー生成を可能にし、コンテンツ制作に革新をもたらす。30Bパラメータでの効率性とHugging Face・GitHubでのオープンソース公開により、Keye-VLは研究レベルのマルチモーダル理解が現実のビジネス価値に直結する新時代を示唆している。