2026-06-28 06:09 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-28 06:19 UTC+8

Show HN：E3d-pod2vid – 將播客轉化為YouTube就緒影片的AI管道

E3d-pod2vid 是一個開源AI管道，能自動將播客音訊轉換為YouTube就緒的影片。它利用GPT-4o-mini進行語義匹配的B-roll片段選擇，生成內嵌字幕，支援可選的OpenAI TTS語音替換，並能上傳到YouTube併發布到多個社交平臺。

來源Hacker News AI作者: spacepacket

E3d-pod2vid 是一個新穎的開源AI工具，專門設計用於將播客或訪談音訊自動轉化為YouTube就緒的影片。它的核心理念是簡化內容創作流程，從原始錄音到最終釋出，只需幾個命令即可完成。

該管道首先使用AssemblyAI對音訊進行說話人分離，然後呼叫GPT-4o-mini為每一段話語生成語義相關的Pexels搜尋查詢，從而獲取匹配的B-roll剪輯。這些剪輯會被快取以避免重複呼叫API。接著，使用Pillow庫生成內嵌字幕，無需依賴複雜的字型渲染庫。最終將所有片段拼接成一個完整的MP4影片，並附帶SRT字幕檔案。

對於需要替換原始音訊中的AI聲音（例如NotebookLM生成的語音），工具提供了TTS替換模組，支援OpenAI的多種語音選項，如onyx和nova。使用者可以透過簡單的引數調整指定不同說話人的聲音。

影片生成後，工具還支援一鍵生成縮圖、上傳到YouTube並更新描述和縮圖，以及同時釋出到多個社交平臺，包括Discord、Telegram、X（Twitter）、Moltbook和LinkedIn。社交媒體釋出模組會根據配置的憑據自動釋出，若未配置則跳過。

值得一提的是，該工具的語義B-roll選擇機制非常智慧。例如，當說話人提到“EZPass在每個收費站節省了90秒”時，系統會搜尋“toll booth highway payment”這樣的相關影片片段。對於機器學習話題，則會搜尋“machine learning data training loop”。這種動態查詢大大提升了影片的視覺相關性。

配置方面，使用者需要獲取多個API金鑰，包括AssemblyAI、OpenAI、Pexels、YouTube Data API以及各社交平臺的憑據。但工具提供了詳細的步驟指南，並且LinkedIn的設定透過OAuth流程得到了簡化。

整個專案採用MIT開源許可，程式碼託管在GitHub上。它需要Python 3.8+和Node.js 18+環境。儘管涉及多個API，但快取機制有效控制了成本和重複執行的時間。對於希望將播客內容快速轉化為視覺上吸引人的YouTube影片的內容創作者而言，這無疑是一個強大的工具。