Show HN: E3d-pod2vid – ポッドキャストをYouTube対応動画に変換するAIパイプライン
E3d-pod2vid は、ポッドキャストオーディオを自動的にYouTube対応動画に変換するオープンソースのAIパイプラインです。GPT-4o-miniを使用した意味論的なBロール選択、焼き込み字幕の生成、オプションのOpenAI TTS音声置換を備え、YouTubeへのアップロードや複数のソーシャルプラットフォームへの投稿が可能です。
E3d-pod2vid は、ポッドキャストやインタビューの音声をYouTube対応の動画に自動変換するための新しいオープンソースAIツールです。このパイプラインは、生の録音から最終公開までをわずか数コマンドで完了できるように設計されています。
まず、AssemblyAIを使用して音声の話者分離を行い、その後GPT-4o-miniを呼び出して各発話に対する意味論的なPexels検索クエリを生成し、関連するBロールクリップを取得します。これらのクリップはキャッシュされるため、APIの重複呼び出しを防ぎます。次に、Pillowライブラリを使用して焼き込み字幕を生成します。複雑なフォントレンダリングライブラリは不要です。最後に、すべてのセグメントを結合して完全なMP4動画とSRT字幕ファイルを出力します。
元の音声(NotebookLMなどのAI音声)を置き換えたい場合のために、TTS置換モジュールが用意されています。OpenAIの複数の音声オプション(onyxやnovaなど)をサポートしており、簡単なパラメータ調整で話者ごとに異なる音声を指定できます。
動画生成後は、サムネイルの生成、YouTubeへのアップロードと説明文・サムネイルの更新、さらにDiscord、Telegram、X(Twitter)、Moltbook、LinkedInへの同時投稿が可能です。ソーシャル投稿モジュールは設定された認証情報に基づいて自動的に投稿し、未設定のプラットフォームはスキップされます。
特筆すべきは、意味論的なBロール選択メカニズムのインテリジェントさです。例えば、話者が「EZPassで各料金所で90秒節約できた」と言えば、「toll booth highway payment」を検索し、機械学習の話題なら「machine learning data training loop」を検索します。この動的なクエリ生成により、動画の視覚的な関連性が大幅に向上します。
設定面では、AssemblyAI、OpenAI、Pexels、YouTube Data API、各ソーシャルプラットフォームの認証情報など、複数のAPIキーが必要です。ただし、ツールは詳細な手順ガイドを提供しており、LinkedInの設定はOAuthフローで簡略化されています。
プロジェクト全体はMITオープンソースライセンスで公開されており、GitHubでホストされています。Python 3.8+とNode.js 18+の環境が必要です。複数のAPIを利用しますが、キャッシュメカニズムによりコストと再実行時間が効果的に抑えられています。ポッドキャストコンテンツを視覚的に魅力的なYouTube動画に迅速に変換したいコンテンツ制作者にとって、非常に強力なツールです。