Databricksが動画を検索可能で実用的なインテリジェンスに変える方法
Databricksは、動画をデータエンジニアリングの問題として捉え、視覚言語モデル(VLM)、サーバーレスGPU、Lakeflowパイプラインを活用して、大量の動画を自動分析、要約、検索可能にする革新的なアプローチを提案している。モデルに依存しないアーキテクチャにより、公共安全、インフラ点検など様々なシナリオに対応可能。
今日のデータ駆動型の世界では、動画データが驚異的な速度で増加しています。ある電力会社はドローンを使って数百マイルの送電線を点検し、警察は交通事故の調査に何時間もの交通カメラ映像を調べ、都市計画チームは歩行者や交通の流れを分析するためにカメラ映像を活用しています。しかし、これらの膨大な動画データのほとんどは有意義に分析されておらず、非構造化動画データの人手による選別は時間とコストがかかります。
Databricksは、この問題に対する革新的な解決策を提案します:動画をデータエンジニアリングの問題として捉えることです。視覚言語モデル(VLM)、サーバーレスGPUコンピューティング(SGC)、およびLakeflowパイプラインを活用することで、複雑な機械学習ワークフローを必要とせず、生の動画を検索可能でAI対応のインテリジェンスに変換します。
従来の動画分析アプローチは、人間のアナリストを増やすことに依存していました。深層学習、コンピュータビジョン、特にVLMの進歩により、コンピュータは動画内の物体を高精度で識別できるようになりました。しかし、大規模な推論と非構造化データを含むパイプラインのオーケストレーションは、組織にとって依然として困難です。VLMは柔軟で事前学習を必要としませんが、従来の物体検出モデルよりも大きく遅く、スケーリングに課題があります。Databricksのアプローチでは、ユーザーはモデル推論やインフラの複雑さを気にすることなく、データパイプラインに集中できます。
具体的な流れは次のとおりです。ユーザーはDatabricks Volumeに保存された動画をアップロードまたは指定し、自然言語のプロンプト(例:「白い箱型トラック」、「警備員」、「太陽光パネル」)を入力し、ワンクリックで処理パイプラインを起動します。その後、DatabricksのサーバーレスGPUコンピューティングが引き継ぎ、Lakeflowジョブがトリガーされ、プリウォームされたGPUがMetaのSAM3セグメンテーションモデルを使用して動画の各フレームを処理し、プロンプトに一致する物体を識別します。動画は関連する瞬間のみに切り詰められ(例えば、26分の交通カメラ映像が1分55秒に短縮)、元のタイムスタンプは保存されるため、レビュアーは必要に応じてソースに戻ることができます。各切り取られたクリップは、Databricks Foundation Model APIを介して基盤モデルに渡され、AI生成の要約が作成され、テキストデータはテーブルに書き込まれるか、下流のプロセスに送られます。
パイプラインはモデル非依存で設計されており、MLflowを活用してユーザーが好みのモデルを選択したり、新しいモデルやファインチューニングされたモデルを持ち込むことができます。Hugging Faceからダウンロードしたモデルやゼロから訓練したモデルも統合可能です。SAM3はYOLO、他のトランスフォーマーベースのビジョンモデル、またはドメイン特化型のファインチューニングモデルと交換できます。同様に、要約や異常検出レイヤーも複数のモデルをサポートし、柔軟性を高めます。サーバーレスGPUコンピューティングは人気のNVIDIA GPUと深層学習フレームワーク向けに事前設定されているため、ユーザーはデータエンジニアリングコードを書くだけでよく、GPUキャパシティやCUDAの互換性を心配する必要はありません。
パイプラインはアプリ起動型のワークフローだけでなく、ファイルまたはイベント駆動型のプロセスとしても実行できます。動画がDatabricks Volumeに配置されると、Lakeflowジョブが自動的にトリガーされ、切り取られた出力とテキストベースの分析を生成します。下流では、テキストがアラートをトリガーし、レビュアーにルーティングされるか、追加のAI処理に供給されます。並行処理はシンプルな設定で管理され、20本の動画を一度に投入すると、20個の独立したジョブが同時に実行され、それぞれが独自のサーバーレスGPUリソースを取得し、水平方向にスケールし、完了時にリソースを解放します。クラスタ管理は不要で、使用していないGPUにコストを支払うこともありません。
このビデオインテリジェンスパイプラインの応用範囲は広く、インフラ点検、物理セキュリティ、公共安全、空港運営などが含まれます。アプリとパイプラインコードはGitHubで公開されており、チームは自由にデプロイ、拡張、適応できます。Databricksは、動画の取り込み、処理、分析をエンドツーエンドで実現し、数分で検索可能なインサイトを提供します。