Raon-Speech 技术报告:9B参数语音语言模型实现全双工对话
Raon-Speech 是一个9B参数的语音语言模型,支持英语和韩语,在语音理解和生成任务上达到顶尖水平,同时保持强大的文本能力。其全双工扩展 Raon-SpeechChat 通过持续训练实现自然的实时对话。所有模型及代码均已开源。
文章情报
要点
- Raon-Speech 基于138万小时精选的英语和韩语语音及文本数据,经过三个阶段训练:语音模块对齐、端到端预训练(含知识蒸馏)、多任务偏好优化后训练。
- 在42项基准测试中,Raon-Speech 在语音任务上优于 Qwen2.5-Omni 和 Fun-Audio-Chat 等八个同尺寸音频基础模型,且文本问答性能保持强劲。
- Raon-SpeechChat 通过119,000小时的时间对齐对话数据(真实与合成)进行持续训练,实现了全双工对话,支持轮换和中断检测。
- 研究团队开源了所有模型检查点、训练推理流程及交互式演示,便于社区复现和应用。
为什么重要
这条新闻值得关注,因为Raon-Speech 基于138万小时精选的英语和韩语语音及文本数据,经过三个阶段训练:语音模块对齐、端到端预训练(含知识蒸馏)、多任务偏好优化后训练。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
Raon-Speech 是一项由韩国研究团队(包括Beomsoo Kim等26位作者)开发的9B参数语音语言模型(SpeechLM),专门针对英语和韩语的语音理解、问答和生成任务。该模型的核心创新在于成功将预训练的大型语言模型(LLM)转化为既能理解又能生成语音的模型,同时保留了强大的文本处理能力。这一转化并非易事,但Raon-Speech通过精心设计的训练流程实现了这一目标,其训练过程分为三个阶段:首先是语音模块的对齐,使模型能够将语音输入与文本表示联系起来;其次是端到端的语音语言模型预训练,其中加入了知识蒸馏技术以提高效率;最后是基于多任务偏好优化的后训练,进一步微调模型行为。
训练数据集规模庞大,包含138万小时的高度精选的英语和韩语语音及文本数据。在评估阶段,研究团队在42项英语和韩语的语音及文本基准测试中,将Raon-Speech与八个近期发布的同尺寸音频基础模型进行了对比,包括Qwen2.5-Omni和Fun-Audio-Chat等。结果显示,Raon-Speech在语音中心任务上建立了最强的整体性能,同时其文本问答能力依然保持领先水平,这表明它在语音和文本模态之间取得了出色的平衡。
在Raon-Speech的基础上,研究团队进一步推出了Raon-SpeechChat,这是一个全双工扩展,旨在实现自然的实时对话。全双工对话意味着双方可以同时说话、互相打断,就像人类自然对话一样。Raon-SpeechChat通过持续训练119,000小时的时间对齐的真实和合成对话数据来实现这一功能。其训练同样包含三个阶段:因果编码器适应、全双工预训练以及全双工微调(用于声音和角色控制)。在多个全双工基准测试中,Raon-SpeechChat在FDB v1.0覆盖的轮换和中断敏感行为上表现最为突出,并且在更广泛的全双工评估套件中也保持了竞争力。
最令人印象深刻的是,研究团队决定将所有模型检查点、训练和推理流程以及一个交互式演示进行开源。这一举措将为全球的研究人员和开发者提供宝贵的资源,推动语音语言模型在实时对话等实际场景中的应用。Raon-Speech的工作展示了如何将强大的文本LLM扩展到语音模态,同时保持高性能和开源精神,这无疑是AI领域的一大进步。