AI News HubLIVE
站內改寫1 分鐘閱讀

Show HN:E3d-pod2vid – 將播客轉化為YouTube就緒視頻的AI管道

E3d-pod2vid 是一個開源AI管道,能自動將播客音頻轉換為YouTube就緒的視頻。它利用GPT-4o-mini進行語義匹配的B-roll片段選擇,生成內嵌字幕,支持可選的OpenAI TTS語音替換,並能上傳到YouTube併發布到多個社交平台。

來源Hacker News AI作者: spacepacket

E3d-pod2vid 是一個新穎的開源AI工具,專門設計用於將播客或訪談音頻自動轉化為YouTube就緒的視頻。它的核心理念是簡化內容創作流程,從原始錄音到最終發佈,只需幾個命令即可完成。

該管道首先使用AssemblyAI對音頻進行説話人分離,然後調用GPT-4o-mini為每一段話語生成語義相關的Pexels搜索查詢,從而獲取匹配的B-roll剪輯。這些剪輯會被緩存以避免重複調用API。接着,使用Pillow庫生成內嵌字幕,無需依賴複雜的字體渲染庫。最終將所有片段拼接成一個完整的MP4視頻,並附帶SRT字幕文件。

對於需要替換原始音頻中的AI聲音(例如NotebookLM生成的語音),工具提供了TTS替換模塊,支持OpenAI的多種語音選項,如onyx和nova。用户可以通過簡單的參數調整指定不同説話人的聲音。

視頻生成後,工具還支持一鍵生成縮略圖、上傳到YouTube並更新描述和縮略圖,以及同時發佈到多個社交平台,包括Discord、Telegram、X(Twitter)、Moltbook和LinkedIn。社交媒體發佈模塊會根據配置的憑據自動發佈,若未配置則跳過。

值得一提的是,該工具的語義B-roll選擇機制非常智能。例如,當説話人提到“EZPass在每個收費站節省了90秒”時,系統會搜索“toll booth highway payment”這樣的相關視頻片段。對於機器學習話題,則會搜索“machine learning data training loop”。這種動態查詢大大提升了視頻的視覺相關性。

配置方面,用户需要獲取多個API密鑰,包括AssemblyAI、OpenAI、Pexels、YouTube Data API以及各社交平台的憑據。但工具提供了詳細的步驟指南,並且LinkedIn的設置通過OAuth流程得到了簡化。

整個項目採用MIT開源許可,代碼託管在GitHub上。它需要Python 3.8+和Node.js 18+環境。儘管涉及多個API,但緩存機制有效控制了成本和重複運行的時間。對於希望將播客內容快速轉化為視覺上吸引人的YouTube視頻的內容創作者而言,這無疑是一個強大的工具。