2026-06-23 23:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-23 23:06 UTC+8

Show HN: Videopython – 本地優先的影片處理、編輯與AI工作流

Videopython是一個極簡、LLM友好的Python庫，用於程式化影片編輯、處理和AI工作流。它支援JSON編輯計劃、本地AI生成與理解、基於Ollama的自動編輯，以及用於代理驅動編輯的MCP伺服器整合。無需雲API金鑰。

來源Hacker News AI作者: randomstate

Videopython是一個專為程式化影片處理設計的Python庫，支援編輯、生成和AI工作流。它採用JSON格式定義編輯計劃，透過流式FFmpeg解碼和逐幀處理，即使面對長達數小時的源影片也能保持記憶體可控。該庫的設計強調簡潔性和LLM友好性，使得大型語言模型可以輕鬆生成和修改編輯計劃。

安裝方式十分簡潔：首先確保系統安裝了FFmpeg，然後透過pip安裝核心庫。如果需要AI功能，可以額外安裝"[ai]"擴充套件包，該包包含文本轉影片、影像轉影片、語音合成等生成能力，以及場景識別、目標檢測等理解能力。所有AI模型均本地執行，無需任何雲API金鑰，首次使用時會自動下載模型權重。對於LLM驅動的編輯和場景字幕功能，需要本地執行Ollama伺服器並拉取gemma3:27b模型。

快速上手時，使用者可以透過字典定義編輯操作，如裁剪、調整顏色、淡入淡出等，並驗證執行。更高階的用法是使用AutoEditor：只需提供素材片段和簡短描述，本地Ollama視覺模型（如gemma3:27b）會自動分析並生成編輯計劃。該模型從基於場景檢測和字幕構建的目錄中按ID選取場景，從而避免時序不精確的問題。

對於希望將LLM納入工作流的開發者，Videopython提供三種整合方式：一是直接使用JSON Schema讓LLM生成編輯計劃，支援嚴格的工具模式；二是透過AutoEditor內建本地規劃器；三是透過MCP伺服器將編輯管線暴露為工具，讓Claude等AI代理驅動編輯。其中MCP模式透過Model Context Protocol暴露自動編輯流程，包括分析、目錄構建、驗證/修復/執行等步驟。

該庫的模組化設計覆蓋了從基礎影片操作到AI增強編輯的完整鏈條。基礎模組包括影片後設資料、幀迭代、音訊處理等；編輯模組提供多種變換和效果，如調整大小、裁剪、速度變化、顏色分級、Ken Burns效果、動畫字幕等；AI模組則整合了生成和理解功能，以及全管道影片分析器。此外，還有專門的配音模組支援語音克隆和時間同步。

Videopython適用於需要自動化影片處理的工作流，例如社交媒體短影片製作、AI生成影片、自動字幕生成等。其本地優先的特性確保了資料隱私和離線可用性。專案採用Apache-2.0許可證，目前已在GitHub上獲得16顆星，擁有147個釋出版本。