2026-06-28 06:09 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-28 06:19 UTC+8

Show HN：E3d-pod2vid – 將播客轉化為YouTube就緒視頻的AI管道

E3d-pod2vid 是一個開源AI管道，能自動將播客音頻轉換為YouTube就緒的視頻。它利用GPT-4o-mini進行語義匹配的B-roll片段選擇，生成內嵌字幕，支持可選的OpenAI TTS語音替換，並能上傳到YouTube併發布到多個社交平台。

來源Hacker News AI作者: spacepacket

E3d-pod2vid 是一個新穎的開源AI工具，專門設計用於將播客或訪談音頻自動轉化為YouTube就緒的視頻。它的核心理念是簡化內容創作流程，從原始錄音到最終發佈，只需幾個命令即可完成。

該管道首先使用AssemblyAI對音頻進行説話人分離，然後調用GPT-4o-mini為每一段話語生成語義相關的Pexels搜索查詢，從而獲取匹配的B-roll剪輯。這些剪輯會被緩存以避免重複調用API。接着，使用Pillow庫生成內嵌字幕，無需依賴複雜的字體渲染庫。最終將所有片段拼接成一個完整的MP4視頻，並附帶SRT字幕文件。

對於需要替換原始音頻中的AI聲音（例如NotebookLM生成的語音），工具提供了TTS替換模塊，支持OpenAI的多種語音選項，如onyx和nova。用户可以通過簡單的參數調整指定不同説話人的聲音。

視頻生成後，工具還支持一鍵生成縮略圖、上傳到YouTube並更新描述和縮略圖，以及同時發佈到多個社交平台，包括Discord、Telegram、X（Twitter）、Moltbook和LinkedIn。社交媒體發佈模塊會根據配置的憑據自動發佈，若未配置則跳過。

值得一提的是，該工具的語義B-roll選擇機制非常智能。例如，當説話人提到“EZPass在每個收費站節省了90秒”時，系統會搜索“toll booth highway payment”這樣的相關視頻片段。對於機器學習話題，則會搜索“machine learning data training loop”。這種動態查詢大大提升了視頻的視覺相關性。

配置方面，用户需要獲取多個API密鑰，包括AssemblyAI、OpenAI、Pexels、YouTube Data API以及各社交平台的憑據。但工具提供了詳細的步驟指南，並且LinkedIn的設置通過OAuth流程得到了簡化。

整個項目採用MIT開源許可，代碼託管在GitHub上。它需要Python 3.8+和Node.js 18+環境。儘管涉及多個API，但緩存機制有效控制了成本和重複運行的時間。對於希望將播客內容快速轉化為視覺上吸引人的YouTube視頻的內容創作者而言，這無疑是一個強大的工具。