2026-06-24 23:04 UTC+8站内改写2 分钟阅读更新: 2026-06-24 23:10 UTC+8

Show HN：利用逼真AI语音将电子书转换为有声书

一位开发者构建了名为ebookaloud的服务，利用开源Kokoro模型将电子书转换为有声书，并采用AI多智能体编程工作流（主要使用DeepSeek）。该产品按需付费，质量足够好，未来计划支持更多语言和PDF提取。

来源Hacker News AI作者: flatline

一位开发者近日推出了名为ebookaloud的服务，该服务利用开源Kokoro模型将电子书转换为有声书，旨在为用户提供一种经济实惠且质量上乘的AI语音叙述体验。开发者本人一直希望尝试使用AI语音进行长篇叙述，但发现市面上的解决方案大多需要订阅，而他的使用量有限，不值得为此付费。偶然发现Kokoro模型后，他惊喜地发现该模型生成的语音质量极高，能够让人长时间聆听而不产生传统机器人TTS语音所带来的疲劳感。Kokoro模型仅有8200万参数，设计上追求快速运行，但即使在开发者的12核笔记本电脑上使用CPU推理，速度仍然不尽人意。于是，他想到利用云GPU服务来快速生成有声书，从而构建自己的自托管库，同时这一流程也可以转化为供他人使用的产品。

在构建过程中，开发者的目标有两个：一是深入了解AI多智能体编程工作流，二是打造一个专门针对电子书转有声书的TTS产品。令人惊讶的是，ebookaloud服务99%的代码是由DeepSeek v4在OpenCode中通过多智能体工作流编写的。他在一个月内使用了约7.5亿个token，成本仅为12美元，对最终结果非常满意。每个功能或变更都经历了规划、实现、测试、审查、修正、提交的循环，其中使用了Pro和Flash代理的组合，通常只运行一到两个并发工作器。此外，他还设置了一个独立的评估代理，用于对提取和合成管道的各个部分进行质量控制，该评估代理可以同时运行8到10个实例。开发者甚至表示，在AI工作流自动化方面，他可能已经接近Yegge所描述的第六阶段。

开发者后来还设置了Claude Code，将Opus 4.8与DeepSeek并行使用。他注意到两者确实存在质量差异，但作为一名经验丰富的开发者，他采取了亲自动手的方式。他并没有直接编写任何代码，但仔细阅读了生成的关键部分，并与DeepSeek Pro就每个步骤进行了广泛讨论。Opus对DeepSeek的选择没有太多批评意见，而且开发者并不相信前沿模型会为他的工作流带来显著改进。他认为，在大型代码库上差异可能会更明显，但他在Opus上实现的少数更改也遇到了与其他模型类似的问题：未经指导的随机更改、过度简化简单解决方案、遇到障碍时采取意外或破坏性行动等。不过，他也看到Opus在处理复杂的规划和组织方面有更强的能力，这有时是他需要的，但并非总是如此。

至于产品本身，市场上无疑有更复杂的解决方案。开发者并不打算与ElevenLabs竞争，而是专注于生成m4b格式的有声书，旨在提供无缝的聆听体验，采用按需付费的定价模式，输出质量达到足够好的水平。这是开发者首次尝试将产品商业化，AI代码生成使得一个精致的产品变得触手可及。如果没有AI，他需要花费6到8个月的时间进行手动研发，很可能在完成之前就已经筋疲力尽。网站首页提供了免费样品，感兴趣的可以体验其语音和格式。开发者在输出质量方面做出了一些有观点的决定：他尝试将大多数语音的语速设定为每分钟140个单词，以匹配行业标准，但有些语音在此速率下会失去韵律，因此他倾向于将速度控制等选项留给播放设备，而不是给用户提供一堆复杂的设置选项。如果网站获得实际用户，开发者计划扩展支持Kokoro的其他语言，并增加从PDF中提取和合成内容的功能，这将使产品更加完善。