AI News HubLIVE
站内改写1 分钟阅读

Show HN:E3d-pod2vid – 将播客转化为YouTube就绪视频的AI管道

E3d-pod2vid 是一个开源AI管道,能自动将播客音频转换为YouTube就绪的视频。它利用GPT-4o-mini进行语义匹配的B-roll片段选择,生成内嵌字幕,支持可选的OpenAI TTS语音替换,并能上传到YouTube并发布到多个社交平台。

来源Hacker News AI作者: spacepacket

E3d-pod2vid 是一个新颖的开源AI工具,专门设计用于将播客或访谈音频自动转化为YouTube就绪的视频。它的核心理念是简化内容创作流程,从原始录音到最终发布,只需几个命令即可完成。

该管道首先使用AssemblyAI对音频进行说话人分离,然后调用GPT-4o-mini为每一段话语生成语义相关的Pexels搜索查询,从而获取匹配的B-roll剪辑。这些剪辑会被缓存以避免重复调用API。接着,使用Pillow库生成内嵌字幕,无需依赖复杂的字体渲染库。最终将所有片段拼接成一个完整的MP4视频,并附带SRT字幕文件。

对于需要替换原始音频中的AI声音(例如NotebookLM生成的语音),工具提供了TTS替换模块,支持OpenAI的多种语音选项,如onyx和nova。用户可以通过简单的参数调整指定不同说话人的声音。

视频生成后,工具还支持一键生成缩略图、上传到YouTube并更新描述和缩略图,以及同时发布到多个社交平台,包括Discord、Telegram、X(Twitter)、Moltbook和LinkedIn。社交媒体发布模块会根据配置的凭据自动发布,若未配置则跳过。

值得一提的是,该工具的语义B-roll选择机制非常智能。例如,当说话人提到“EZPass在每个收费站节省了90秒”时,系统会搜索“toll booth highway payment”这样的相关视频片段。对于机器学习话题,则会搜索“machine learning data training loop”。这种动态查询大大提升了视频的视觉相关性。

配置方面,用户需要获取多个API密钥,包括AssemblyAI、OpenAI、Pexels、YouTube Data API以及各社交平台的凭据。但工具提供了详细的步骤指南,并且LinkedIn的设置通过OAuth流程得到了简化。

整个项目采用MIT开源许可,代码托管在GitHub上。它需要Python 3.8+和Node.js 18+环境。尽管涉及多个API,但缓存机制有效控制了成本和重复运行的时间。对于希望将播客内容快速转化为视觉上吸引人的YouTube视频的内容创作者而言,这无疑是一个强大的工具。