VideoKR: 知識と推論を要する動画理解に向けて
研究者らは、知識と推論を必要とする動画理解を強化するために設計された最初の大規模トレーニングコーパス「VideoKR」を発表した。これは、31万5千の動画推論例と、新たに収集された14万5千のCCライセンス付き専門分野動画で構成される。人間参加型のスキル指向の例生成パイプラインを開発し、新しい専門家注釈ベンチマークVideoKR-Evalも作成した。実験では、標準のSFT→GRPOパイプラインの下で、VideoKRで事後学習されたモデルは知識集約型動画推論で以前のアプローチを上回り、一般的な動画推論でも競争力を維持した。
近年、動画理解の研究は目覚ましい進歩を遂げているが、既存のデータセットの多くは物体認識や動作分類のような基本的なタスクに焦点を当てており、深い知識や複雑な推論を必要とする場面には十分に対応できていない。この課題に対処するため、複数の研究機関からなるチームがVideoKRを提案した。VideoKRは知識集約型の動画理解を強化するために設計された初めての大規模トレーニングコーパスであり、機械学習のトップ会議ICML 2026のSpotlight論文として採択されている。
VideoKRデータセットは、31万5千の動画推論例から構成され、これらの例は新たに収集された14万5千のクリエイティブ・コモンズ(CC)ライセンス付き専門分野動画に基づいている。対象分野は科学実験、歴史ドキュメンタリー、技術チュートリアルなど多岐にわたる。既存のデータセットと異なり、VideoKRの各例には詳細な思考連鎖(CoT)推論プロセスが付随しており、モデルが段階的に推論する能力を学習できるようになっている。
データセットの構築には、革新的な「人間参加型」かつ「スキル指向」の生成パイプラインが採用された。研究者らはまず、事実検索、因果推論、多段階推論などの異なるレベルの動画推論スキルを定義し、人手による注釈と自動生成を組み合わせて難易度が段階的に上がる例を生成した。このパイプラインにより、データの高品質、多様性、信頼性が確保されるとともに、テキストの近道的な手がかりに頼らずに動画内容を真に理解することが求められる。
モデルの推論能力を公正に評価するため、研究チームは新たな専門家注釈ベンチマークVideoKR-Evalも作成した。このベンチマークでは、質問が真の動画理解と知識集約的な推論を必要とするように設計されており、テキストのみで回答できる問題は含まれていない。そのため、評価結果の信頼性は高い。
実験では、標準的な教師ありファインチューニング(SFT)の後に集団相対方策最適化(GRPO)を適用する訓練パイプラインが用いられた。結果として、VideoKRで事後学習されたモデルは、知識集約型動画推論タスクにおいて従来の最先端手法を大幅に上回り、一般動画推論タスクでも競争力を維持した。広範なアブレーション研究により、CoTやスキル指向設計といったVideoKRの各コンポーネントの貢献が検証され、将来の研究への実践的な洞察が提供された。
VideoKRの公開は、動画理解分野における新たなデータ駆動型パラダイムを示しており、高品質で目的に特化した訓練データが推論能力の向上を促進する重要な要素であることを示唆している。研究チームはデータセットとコードを公開し、知識と推論を要する動画理解に関するさらなる研究を促進することを期待している。