2026-06-28 06:09 UTC+8站内改写1 分钟阅读更新: 2026-06-28 06:19 UTC+8

Show HN：E3d-pod2vid – 将播客转化为YouTube就绪视频的AI管道

E3d-pod2vid 是一个开源AI管道，能自动将播客音频转换为YouTube就绪的视频。它利用GPT-4o-mini进行语义匹配的B-roll片段选择，生成内嵌字幕，支持可选的OpenAI TTS语音替换，并能上传到YouTube并发布到多个社交平台。

来源Hacker News AI作者: spacepacket

E3d-pod2vid 是一个新颖的开源AI工具，专门设计用于将播客或访谈音频自动转化为YouTube就绪的视频。它的核心理念是简化内容创作流程，从原始录音到最终发布，只需几个命令即可完成。

该管道首先使用AssemblyAI对音频进行说话人分离，然后调用GPT-4o-mini为每一段话语生成语义相关的Pexels搜索查询，从而获取匹配的B-roll剪辑。这些剪辑会被缓存以避免重复调用API。接着，使用Pillow库生成内嵌字幕，无需依赖复杂的字体渲染库。最终将所有片段拼接成一个完整的MP4视频，并附带SRT字幕文件。

对于需要替换原始音频中的AI声音（例如NotebookLM生成的语音），工具提供了TTS替换模块，支持OpenAI的多种语音选项，如onyx和nova。用户可以通过简单的参数调整指定不同说话人的声音。

视频生成后，工具还支持一键生成缩略图、上传到YouTube并更新描述和缩略图，以及同时发布到多个社交平台，包括Discord、Telegram、X（Twitter）、Moltbook和LinkedIn。社交媒体发布模块会根据配置的凭据自动发布，若未配置则跳过。

值得一提的是，该工具的语义B-roll选择机制非常智能。例如，当说话人提到“EZPass在每个收费站节省了90秒”时，系统会搜索“toll booth highway payment”这样的相关视频片段。对于机器学习话题，则会搜索“machine learning data training loop”。这种动态查询大大提升了视频的视觉相关性。

配置方面，用户需要获取多个API密钥，包括AssemblyAI、OpenAI、Pexels、YouTube Data API以及各社交平台的凭据。但工具提供了详细的步骤指南，并且LinkedIn的设置通过OAuth流程得到了简化。

整个项目采用MIT开源许可，代码托管在GitHub上。它需要Python 3.8+和Node.js 18+环境。尽管涉及多个API，但缓存机制有效控制了成本和重复运行的时间。对于希望将播客内容快速转化为视觉上吸引人的YouTube视频的内容创作者而言，这无疑是一个强大的工具。