Show HN: Videopython – 本地優先的影片處理、編輯與AI工作流
Videopython是一個極簡、LLM友好的Python庫,用於程式化影片編輯、處理和AI工作流。它支援JSON編輯計劃、本地AI生成與理解、基於Ollama的自動編輯,以及用於代理驅動編輯的MCP伺服器整合。無需雲API金鑰。
Videopython是一個專為程式化影片處理設計的Python庫,支援編輯、生成和AI工作流。它採用JSON格式定義編輯計劃,透過流式FFmpeg解碼和逐幀處理,即使面對長達數小時的源影片也能保持記憶體可控。該庫的設計強調簡潔性和LLM友好性,使得大型語言模型可以輕鬆生成和修改編輯計劃。
安裝方式十分簡潔:首先確保系統安裝了FFmpeg,然後透過pip安裝核心庫。如果需要AI功能,可以額外安裝"[ai]"擴充套件包,該包包含文本轉影片、影像轉影片、語音合成等生成能力,以及場景識別、目標檢測等理解能力。所有AI模型均本地執行,無需任何雲API金鑰,首次使用時會自動下載模型權重。對於LLM驅動的編輯和場景字幕功能,需要本地執行Ollama伺服器並拉取gemma3:27b模型。
快速上手時,使用者可以透過字典定義編輯操作,如裁剪、調整顏色、淡入淡出等,並驗證執行。更高階的用法是使用AutoEditor:只需提供素材片段和簡短描述,本地Ollama視覺模型(如gemma3:27b)會自動分析並生成編輯計劃。該模型從基於場景檢測和字幕構建的目錄中按ID選取場景,從而避免時序不精確的問題。
對於希望將LLM納入工作流的開發者,Videopython提供三種整合方式:一是直接使用JSON Schema讓LLM生成編輯計劃,支援嚴格的工具模式;二是透過AutoEditor內建本地規劃器;三是透過MCP伺服器將編輯管線暴露為工具,讓Claude等AI代理驅動編輯。其中MCP模式透過Model Context Protocol暴露自動編輯流程,包括分析、目錄構建、驗證/修復/執行等步驟。
該庫的模組化設計覆蓋了從基礎影片操作到AI增強編輯的完整鏈條。基礎模組包括影片後設資料、幀迭代、音訊處理等;編輯模組提供多種變換和效果,如調整大小、裁剪、速度變化、顏色分級、Ken Burns效果、動畫字幕等;AI模組則整合了生成和理解功能,以及全管道影片分析器。此外,還有專門的配音模組支援語音克隆和時間同步。
Videopython適用於需要自動化影片處理的工作流,例如社交媒體短影片製作、AI生成影片、自動字幕生成等。其本地優先的特性確保了資料隱私和離線可用性。專案採用Apache-2.0許可證,目前已在GitHub上獲得16顆星,擁有147個釋出版本。