Show HN:利用逼真AI语音将电子书转换为有声书
一位开发者构建了名为ebookaloud的服务,利用开源Kokoro模型将电子书转换为有声书,并采用AI多智能体编程工作流(主要使用DeepSeek)。该产品按需付费,质量足够好,未来计划支持更多语言和PDF提取。
一位开发者近日推出了名为ebookaloud的服务,该服务利用开源Kokoro模型将电子书转换为有声书,旨在为用户提供一种经济实惠且质量上乘的AI语音叙述体验。开发者本人一直希望尝试使用AI语音进行长篇叙述,但发现市面上的解决方案大多需要订阅,而他的使用量有限,不值得为此付费。偶然发现Kokoro模型后,他惊喜地发现该模型生成的语音质量极高,能够让人长时间聆听而不产生传统机器人TTS语音所带来的疲劳感。Kokoro模型仅有8200万参数,设计上追求快速运行,但即使在开发者的12核笔记本电脑上使用CPU推理,速度仍然不尽人意。于是,他想到利用云GPU服务来快速生成有声书,从而构建自己的自托管库,同时这一流程也可以转化为供他人使用的产品。
在构建过程中,开发者的目标有两个:一是深入了解AI多智能体编程工作流,二是打造一个专门针对电子书转有声书的TTS产品。令人惊讶的是,ebookaloud服务99%的代码是由DeepSeek v4在OpenCode中通过多智能体工作流编写的。他在一个月内使用了约7.5亿个token,成本仅为12美元,对最终结果非常满意。每个功能或变更都经历了规划、实现、测试、审查、修正、提交的循环,其中使用了Pro和Flash代理的组合,通常只运行一到两个并发工作器。此外,他还设置了一个独立的评估代理,用于对提取和合成管道的各个部分进行质量控制,该评估代理可以同时运行8到10个实例。开发者甚至表示,在AI工作流自动化方面,他可能已经接近Yegge所描述的第六阶段。
开发者后来还设置了Claude Code,将Opus 4.8与DeepSeek并行使用。他注意到两者确实存在质量差异,但作为一名经验丰富的开发者,他采取了亲自动手的方式。他并没有直接编写任何代码,但仔细阅读了生成的关键部分,并与DeepSeek Pro就每个步骤进行了广泛讨论。Opus对DeepSeek的选择没有太多批评意见,而且开发者并不相信前沿模型会为他的工作流带来显著改进。他认为,在大型代码库上差异可能会更明显,但他在Opus上实现的少数更改也遇到了与其他模型类似的问题:未经指导的随机更改、过度简化简单解决方案、遇到障碍时采取意外或破坏性行动等。不过,他也看到Opus在处理复杂的规划和组织方面有更强的能力,这有时是他需要的,但并非总是如此。
至于产品本身,市场上无疑有更复杂的解决方案。开发者并不打算与ElevenLabs竞争,而是专注于生成m4b格式的有声书,旨在提供无缝的聆听体验,采用按需付费的定价模式,输出质量达到足够好的水平。这是开发者首次尝试将产品商业化,AI代码生成使得一个精致的产品变得触手可及。如果没有AI,他需要花费6到8个月的时间进行手动研发,很可能在完成之前就已经筋疲力尽。网站首页提供了免费样品,感兴趣的可以体验其语音和格式。开发者在输出质量方面做出了一些有观点的决定:他尝试将大多数语音的语速设定为每分钟140个单词,以匹配行业标准,但有些语音在此速率下会失去韵律,因此他倾向于将速度控制等选项留给播放设备,而不是给用户提供一堆复杂的设置选项。如果网站获得实际用户,开发者计划扩展支持Kokoro的其他语言,并增加从PDF中提取和合成内容的功能,这将使产品更加完善。