2026-06-24 00:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-24 00:06 UTC+9

Show HN: Videopython – ローカルファーストの動画処理・編集・AIワークフロー

Videopythonは、プログラムによる動画編集、処理、AIワークフローのためのミニマルでLLMフレンドリーなPythonライブラリです。JSON編集計画、ローカルAI生成・理解、Ollamaを用いた自動編集、エージェント駆動編集のためのMCPサーバー統合をサポートします。クラウドAPIキーは不要です。

ソースHacker News AI著者: randomstate

記事インテリジェンス

エンジニア上級

要点

JSONでマルチセグメント編集計画を定義し、ソースファイルに対してバリデーションとストリーム実行が可能。メモリ使用量も一定。
AI機能はすべてローカルで動作し、クラウドAPIキー不要。初回使用時にモデル重みを自動ダウンロード。
AutoEditorはローカルのOllamaビジョンモデルを使用して、簡潔な指示からショットを選択・順序付け。
MCPサーバーによりパイプラインをツールとして公開し、Claudeなどのエージェントが編集を駆動可能。

重要な理由

このニュースが重要なのは、JSONでマルチセグメント編集計画を定義し、ソースファイルに対してバリデーションとストリーム実行が可能。メモリ使用量も一定ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Videopythonは、プログラムによる動画編集を実現するPythonライブラリで、JSON形式の編集計画を用いて、FFmpegのデコードとフレーム単位の処理をストリーム実行します。長時間のソースでもメモリ使用量が一定に保たれるため、大規模な動画処理にも適しています。このライブラリはミニマルでLLMフレンドリーな設計が特徴で、大規模言語モデルが容易に編集計画を生成・修正できるようになっています。

インストールは簡単で、FFmpegを事前にインストールした上で、pipでコアライブラリを導入します。AI機能を利用する場合は拡張パッケージ「[ai]」を追加インストールします。AI機能にはテキストからの動画生成、画像からの動画生成、音声合成などの生成機能と、シーン認識、物体検出、顔追跡などの理解機能が含まれます。すべてのAIモデルはローカルで動作し、クラウドAPIキーは不要で、初回利用時に自動ダウンロードされます。LLM駆動の編集やシーンキャプション機能には、ローカルのOllamaサーバー（gemma3:27b）が必要です。

クイックスタートでは、辞書形式で編集操作（リサイズ、色調整、フェードなど）を定義し、検証・実行できます。さらに高度な使い方として、AutoEditorがあります。これは、素材クリップと簡単な説明文を与えるだけで、ローカルのOllamaビジョンモデル（gemma3:27bなど）が自動的にシーンを選択し、編集計画を生成します。モデルはシーン検出とキャプションから構築されたカタログからIDでシーンを選択するため、時間的な不正確さがレンダリングに影響することはありません。

LLMとの統合も充実しています。Videopythonは3つのモードを提供します：①JSONスキーマをLLMに提供して編集計画を生成させる方法（厳密なツールモード対応）、②AutoEditorに内蔵されたローカルプランナーを使う方法、③MCPサーバーを介してClaudeなどのエージェントに編集パイプラインをツールとして公開する方法です。MCPモードでは、Model Context Protocolを介して自動編集パイプライン（分析、カタログ構築、検証/修復/実行）を公開します。

その他、Videopythonのモジュール設計は基本的な動画操作からAI強化編集までの完全なチェーンをカバーしています。基本モジュールは動画メタデータ、フレーム反復、音声処理などを提供し、編集モジュールはリサイズ、クロップ、速度変更、カラーグレーディング、Ken Burns効果、アニメーション字幕などの多様な変換とエフェクトを備えています。AIモジュールは生成と理解機能に加え、全パイプライン動画アナライザを統合しています。また、音声クローンとタイミング同期をサポートする専用の吹き替えモジュールもあります。

Videopythonは、ソーシャルメディア向けクリップ作成、AI生成動画、自動字幕生成など、自動化された動画処理ワークフローに適しています。ローカルファーストのアプローチにより、データプライバシーとオフライン利用が保証されます。プロジェクトはApache-2.0ライセンスで公開されており、現在GitHubで16スター、147のリリースがあります。