2026-06-27 04:30 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 05:10 UTC+8

Databricks如何將視頻轉化為可搜索、可操作的情報

Databricks提出了一種將視頻視為數據工程問題的創新方法，利用視覺語言模型（VLM）、無服務器GPU和Lakeflow管道，實現對大量視頻的自動分析、摘要和搜索。該方案模型無關、可擴展，適用於公共安全、基礎設施檢查等多個場景。

在當今數據驅動的世界中，視頻數據正以驚人的速度增長。一家公用事業公司使用無人機檢查數百英里的電力線路；警察局調取數小時的交通攝像頭視頻調查肇事逃逸事故；城市規劃團隊利用攝像頭分析行人及交通流量。然而，這些海量視頻數據中，絕大多數並未得到有意義的分析，因為人工篩選非結構化視頻數據既耗時又昂貴。

Databricks提出了一種顛覆性的解決方案：將視頻視為數據工程問題。藉助視覺語言模型（VLM）、無服務器GPU計算（Serverless GPU Compute, SGC）和Lakeflow管道，Databricks能夠將原始視頻轉化為可搜索、AI就緒的情報，且無需複雜的機器學習工作流。

傳統的視頻分析方法依賴於不斷增加人工分析師，而深度學習、計算機視覺尤其是VLM的進步，使計算機能夠高精度識別視頻中的物體。然而，大規模推理和編排包含大量非結構化數據的管道對組織而言仍具挑戰。VLM雖靈活、無需預訓練，但體積大、速度慢，帶來擴展難題。Databricks的解決方案讓用户專注於數據管道，而非模型推理和基礎設施的複雜性。

具體流程如下：用户上傳或指向Databricks Volume中的視頻，輸入自然語言提示（如“白色箱式卡車”、“安保人員”或“太陽能板”），點擊一次即可啓動處理管道。隨後，Databricks無服務器GPU計算接手，Lakeflow作業觸發，預熱的GPU立即通過Meta的SAM3分割模型處理視頻。模型在每一幀中識別與提示匹配的目標，將視頻截取至僅包含相關時段的片段（例如，一段26分鐘的交通攝像頭視頻被縮減為1分55秒），並保留原始時間戳以便回溯。每個截取片段隨後通過Databricks基礎模型API（FMAPI）傳遞給基礎模型，生成AI摘要，文本數據可寫入表或流向其他下游流程。

管道設計為模型無關，利用MLflow讓用户選擇或定製模型。無論是從Hugging Face下載的模型還是自訓練的模型，均可集成。SAM3可替換為YOLO、其他基於Transformer的視覺模型或特定領域微調模型。同樣，摘要和異常檢測層也支持多種模型，使管道靈活可擴展。無服務器GPU計算預先配置了流行的NVIDIA GPU和深度學習框架，用户只需編寫數據工程代碼，無需擔心GPU容量或CUDA兼容性問題。

管道不僅限於應用觸發的工作流，還可作為文件或事件驅動流程運行：視頻進入Databricks Volume後自動觸發Lakeflow作業，生成截取輸出和基於文本的分析，無需人工干預。下游文本可觸發警報、路由至審查人員或輸入其他AI處理。併發處理通過簡單配置實現，20個視頻可同時啓動20個獨立作業，每個作業獨立獲取無服務器GPU資源，水平擴展，完成後釋放，無需集羣管理，且不為閒置GPU付費。

這一視頻智能管道的應用場景廣泛，包括基礎設施檢查、物理安全、公共安全、機場運營等。相關應用和管道代碼已在GitHub上公開，團隊可部署、擴展或適配至自身用例。Databricks通過端到端的視頻智能管道，實現視頻的攝入、處理和分析，在幾分鐘內提供可搜索的洞察。