Show HN: Videopython – ローカルファーストの動画処理・編集・AIワークフロー
Videopythonは、プログラムによる動画編集、処理、AIワークフローのためのミニマルでLLMフレンドリーなPythonライブラリです。JSON編集計画、ローカルAI生成・理解、Ollamaを用いた自動編集、エージェント駆動編集のためのMCPサーバー統合をサポートします。クラウドAPIキーは不要です。
Videopythonは、プログラムによる動画編集を実現するPythonライブラリで、JSON形式の編集計画を用いて、FFmpegのデコードとフレーム単位の処理をストリーム実行します。長時間のソースでもメモリ使用量が一定に保たれるため、大規模な動画処理にも適しています。このライブラリはミニマルでLLMフレンドリーな設計が特徴で、大規模言語モデルが容易に編集計画を生成・修正できるようになっています。
インストールは簡単で、FFmpegを事前にインストールした上で、pipでコアライブラリを導入します。AI機能を利用する場合は拡張パッケージ「[ai]」を追加インストールします。AI機能にはテキストからの動画生成、画像からの動画生成、音声合成などの生成機能と、シーン認識、物体検出、顔追跡などの理解機能が含まれます。すべてのAIモデルはローカルで動作し、クラウドAPIキーは不要で、初回利用時に自動ダウンロードされます。LLM駆動の編集やシーンキャプション機能には、ローカルのOllamaサーバー(gemma3:27b)が必要です。
クイックスタートでは、辞書形式で編集操作(リサイズ、色調整、フェードなど)を定義し、検証・実行できます。さらに高度な使い方として、AutoEditorがあります。これは、素材クリップと簡単な説明文を与えるだけで、ローカルのOllamaビジョンモデル(gemma3:27bなど)が自動的にシーンを選択し、編集計画を生成します。モデルはシーン検出とキャプションから構築されたカタログからIDでシーンを選択するため、時間的な不正確さがレンダリングに影響することはありません。
LLMとの統合も充実しています。Videopythonは3つのモードを提供します:①JSONスキーマをLLMに提供して編集計画を生成させる方法(厳密なツールモード対応)、②AutoEditorに内蔵されたローカルプランナーを使う方法、③MCPサーバーを介してClaudeなどのエージェントに編集パイプラインをツールとして公開する方法です。MCPモードでは、Model Context Protocolを介して自動編集パイプライン(分析、カタログ構築、検証/修復/実行)を公開します。
その他、Videopythonのモジュール設計は基本的な動画操作からAI強化編集までの完全なチェーンをカバーしています。基本モジュールは動画メタデータ、フレーム反復、音声処理などを提供し、編集モジュールはリサイズ、クロップ、速度変更、カラーグレーディング、Ken Burns効果、アニメーション字幕などの多様な変換とエフェクトを備えています。AIモジュールは生成と理解機能に加え、全パイプライン動画アナライザを統合しています。また、音声クローンとタイミング同期をサポートする専用の吹き替えモジュールもあります。
Videopythonは、ソーシャルメディア向けクリップ作成、AI生成動画、自動字幕生成など、自動化された動画処理ワークフローに適しています。ローカルファーストのアプローチにより、データプライバシーとオフライン利用が保証されます。プロジェクトはApache-2.0ライセンスで公開されており、現在GitHubで16スター、147のリリースがあります。