Databricks如何將影片轉化為可搜尋、可操作的情報
Databricks提出了一種將影片視為資料工程問題的創新方法,利用視覺語言模型(VLM)、無伺服器GPU和Lakeflow管道,實現對大量影片的自動分析、摘要和搜尋。該方案模型無關、可擴充套件,適用於公共安全、基礎設施檢查等多個場景。
在當今資料驅動的世界中,影片資料正以驚人的速度增長。一家公用事業公司使用無人機檢查數百英里的電力線路;警察局調取數小時的交通攝像頭影片調查肇事逃逸事故;城市規劃團隊利用攝像頭分析行人及交通流量。然而,這些海量影片資料中,絕大多數並未得到有意義的分析,因為人工篩選非結構化影片資料既耗時又昂貴。
Databricks提出了一種顛覆性的解決方案:將影片視為資料工程問題。藉助視覺語言模型(VLM)、無伺服器GPU計算(Serverless GPU Compute, SGC)和Lakeflow管道,Databricks能夠將原始影片轉化為可搜尋、AI就緒的情報,且無需複雜的機器學習工作流。
傳統的影片分析方法依賴於不斷增加人工分析師,而深度學習、計算機視覺尤其是VLM的進步,使計算機能夠高精度識別影片中的物體。然而,大規模推理和編排包含大量非結構化資料的管道對組織而言仍具挑戰。VLM雖靈活、無需預訓練,但體積大、速度慢,帶來擴充套件難題。Databricks的解決方案讓使用者專注於資料管道,而非模型推理和基礎設施的複雜性。
具體流程如下:使用者上傳或指向Databricks Volume中的影片,輸入自然語言提示(如“白色箱式卡車”、“安保人員”或“太陽能板”),點選一次即可啟動處理管道。隨後,Databricks無伺服器GPU計算接手,Lakeflow作業觸發,預熱的GPU立即透過Meta的SAM3分割模型處理影片。模型在每一幀中識別與提示匹配的目標,將影片擷取至僅包含相關時段的片段(例如,一段26分鐘的交通攝像頭影片被縮減為1分55秒),並保留原始時間戳以便回溯。每個擷取片段隨後透過Databricks基礎模型API(FMAPI)傳遞給基礎模型,生成AI摘要,文本資料可寫入表或流向其他下游流程。
管道設計為模型無關,利用MLflow讓使用者選擇或定製模型。無論是從Hugging Face下載的模型還是自訓練的模型,均可整合。SAM3可替換為YOLO、其他基於Transformer的視覺模型或特定領域微調模型。同樣,摘要和異常檢測層也支援多種模型,使管道靈活可擴充套件。無伺服器GPU計算預先配置了流行的NVIDIA GPU和深度學習框架,使用者只需編寫資料工程程式碼,無需擔心GPU容量或CUDA相容性問題。
管道不僅限於應用觸發的工作流,還可作為檔案或事件驅動流程執行:影片進入Databricks Volume後自動觸發Lakeflow作業,生成擷取輸出和基於文本的分析,無需人工干預。下游文本可觸發警報、路由至審查人員或輸入其他AI處理。併發處理透過簡單配置實現,20個影片可同時啟動20個獨立作業,每個作業獨立獲取無伺服器GPU資源,水平擴充套件,完成後釋放,無需叢集管理,且不為閒置GPU付費。
這一影片智慧管道的應用場景廣泛,包括基礎設施檢查、物理安全、公共安全、機場運營等。相關應用和管道程式碼已在GitHub上公開,團隊可部署、擴充套件或適配至自身用例。Databricks透過端到端的影片智慧管道,實現影片的攝入、處理和分析,在幾分鐘內提供可搜尋的洞察。