2026-05-26 19:17 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

DSA注意機構をマルチモーダルに導入、快手Keye2.0が強化推論の新パラダイムを開く

快手はKeye-VL-2.0-30B-A3Bを発表。DSA（DeepSeek Sparse Attention）をマルチモーダルに初めて適用し、256Kの超長コンテキスト深層認識を実現。長編動画の時間的理解ベンチマークでSOTAを達成し、Agent協調メカニズムを内蔵。業務応用にも展開中。

ソース量子位著者: 克雷西

快手は最新のマルチモーダル大規模言語モデルKeye-VL-2.0-30B-A3Bを正式に発表した。本モデルは、DeepSeek Sparse Attention (DSA)をマルチモーダル理解に初めて組み込み、最大256Kトークンの超長文脈を効率的に処理できる。DSAメカニズムにより、長時間動画から重要な情報を抽出しつつ、計算コストを大幅に削減することが可能となった。特にプリフィル段階のコストが50%削減され、デコード複雑性が文脈長に対して緩やかに増加するため、従来のFull Attentionに伴う指数関数的コスト増大を克服している。

時間的理解ベンチマークでの性能は際立っている。TimeLensベンチマークでは、CharadesでmIoU 58.4を達成し、クローズドソースのGemini 3 Flash（61.2）に迫り、ActivityNetではGemini 2.5 Pro（58.1）とGemini 3 Flash（57.0）を上回った。QVHighlightsではmIoU 70.1を記録し、Gemini 3 Flashの49.5を大幅に凌駕した。さらに重要なのは、一般的な「長文脈劣化」現象を覆した点である。入力フレームを64から512に拡張すると、VideoMME V2の平均精度が35.34%から42.44%に上昇し、非線形スコアも18.54から24.19に向上した。これは長編動画に対する真の習熟を示している。

実例でもその能力が実証されている。9分間のアイスランド旅行Vlogを入力すると、'冷たい手'などの視覚的詳細を認識しただけでなく、因果関係を推論し、手袋の推奨、地元料理への文化的配慮、雪中の事故からレンタカーよりツアーを提案した。陶器制作動画では、十数もの工程をタイムスタンプ付きで詳細に分解した。ゲームハイライト動画では、視覚的強度、音響映像の協調、物語的文脈を分析して「崖っぷち」の瞬間を特定し、過去のセグメントと比較してその選択を正当化した。このような能力は単なるシーンタグ付けを超え、深い時間的因果推論を反映している。

同様に画期的なのは、モデルに内蔵されたAgentフレームワークである。これは知覚、計画、実行を統合する。Code Agentは強力な論理的推論を示し、LiveCodeBench v6で77.10、SWE-bench Verifiedで62.00を達成。Tool Agentは多段階API呼び出しに優れ、TAU2-Benchで82.58を記録し、複雑なワークフローでの堅牢なフォールトトレランスを示した。例えば、店舗検索、距離計算、注文作成を含むマルチスレッド要求を自律的に計画し、十数回のAPI呼び出しを自己修正しながら実行した。

破滅的忘却を起こさずにマルチタスク学習を実現するため、快手はクロスモーダルMOPD（マルチエキスパートポリシー蒸留・統合）を導入した。この手法は動的ルーティングとパラメータ融合を用いてエキスパートモデルを統合し、新規の「バケットアドバンテージスケーリング」法によりコア推論信号を増幅しテンプレートノイズを抑制する。さらにContext-RL報酬メカニズムが密で細粒度の監視を提供し、特に数学・医療・コード領域でのマルチステップ推論における幻覚を低減する。精度フィルタリングを備えた厳格なデータエンジンが高品質な学習軌跡を保証する。

Keye-VL-2.0-30B-A3Bの影響はベンチマークに留まらない。快手は本モデルを中核事業（生成的レコメンデーション、コンテンツモデレーション、ターゲット広告）に導入し、配信精度と商業収益の向上を実現している。Video×Agentの統合により、自動ハイライト抽出、編集、マーケティングコピー生成を可能にし、コンテンツ制作に革新をもたらす。30Bパラメータでの効率性とHugging Face・GitHubでのオープンソース公開により、Keye-VLは研究レベルのマルチモーダル理解が現実のビジネス価値に直結する新時代を示唆している。