AI News HubLIVE
站內改寫1 分鐘閱讀

Show HN:E3d-pod2vid – 將播客轉化為YouTube就緒影片的AI管道

E3d-pod2vid 是一個開源AI管道,能自動將播客音訊轉換為YouTube就緒的影片。它利用GPT-4o-mini進行語義匹配的B-roll片段選擇,生成內嵌字幕,支援可選的OpenAI TTS語音替換,並能上傳到YouTube併發布到多個社交平臺。

來源Hacker News AI作者: spacepacket

E3d-pod2vid 是一個新穎的開源AI工具,專門設計用於將播客或訪談音訊自動轉化為YouTube就緒的影片。它的核心理念是簡化內容創作流程,從原始錄音到最終釋出,只需幾個命令即可完成。

該管道首先使用AssemblyAI對音訊進行說話人分離,然後呼叫GPT-4o-mini為每一段話語生成語義相關的Pexels搜尋查詢,從而獲取匹配的B-roll剪輯。這些剪輯會被快取以避免重複呼叫API。接著,使用Pillow庫生成內嵌字幕,無需依賴複雜的字型渲染庫。最終將所有片段拼接成一個完整的MP4影片,並附帶SRT字幕檔案。

對於需要替換原始音訊中的AI聲音(例如NotebookLM生成的語音),工具提供了TTS替換模組,支援OpenAI的多種語音選項,如onyx和nova。使用者可以透過簡單的引數調整指定不同說話人的聲音。

影片生成後,工具還支援一鍵生成縮圖、上傳到YouTube並更新描述和縮圖,以及同時釋出到多個社交平臺,包括Discord、Telegram、X(Twitter)、Moltbook和LinkedIn。社交媒體釋出模組會根據配置的憑據自動釋出,若未配置則跳過。

值得一提的是,該工具的語義B-roll選擇機制非常智慧。例如,當說話人提到“EZPass在每個收費站節省了90秒”時,系統會搜尋“toll booth highway payment”這樣的相關影片片段。對於機器學習話題,則會搜尋“machine learning data training loop”。這種動態查詢大大提升了影片的視覺相關性。

配置方面,使用者需要獲取多個API金鑰,包括AssemblyAI、OpenAI、Pexels、YouTube Data API以及各社交平臺的憑據。但工具提供了詳細的步驟指南,並且LinkedIn的設定透過OAuth流程得到了簡化。

整個專案採用MIT開源許可,程式碼託管在GitHub上。它需要Python 3.8+和Node.js 18+環境。儘管涉及多個API,但快取機制有效控制了成本和重複執行的時間。對於希望將播客內容快速轉化為視覺上吸引人的YouTube影片的內容創作者而言,這無疑是一個強大的工具。