2026-05-26 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Raon-Speech 技术报告：9B参数语音语言模型实现全双工对话

Raon-Speech 是一个9B参数的语音语言模型，支持英语和韩语，在语音理解和生成任务上达到顶尖水平，同时保持强大的文本能力。其全双工扩展 Raon-SpeechChat 通过持续训练实现自然的实时对话。所有模型及代码均已开源。

来源arXiv Computational Linguistics作者: Beomsoo Kim, Changho Choi, Dohyun Kim, Dongki Lee, Ethan Ewer, Eunchong Kim, Gyeongman Kim, Haechan Kim, Hyeonghwan Kim, Inkyu Park, Jihun Yun, Jihwan Moon, Jiyun Kim, Joonghyun Bae, Junhyuck Kim, Minkyu Kim, Sehun Lee, Seungjun Chung, Sungwoo Cho, Dongmin Park, Dongwon Kim, Hara Kang, Jonghyun Lee, Keon Lee, Kangwook Lee, Jaewoong Cho

文章情报

投资人进阶

要点

Raon-Speech 基于138万小时精选的英语和韩语语音及文本数据，经过三个阶段训练：语音模块对齐、端到端预训练（含知识蒸馏）、多任务偏好优化后训练。
在42项基准测试中，Raon-Speech 在语音任务上优于 Qwen2.5-Omni 和 Fun-Audio-Chat 等八个同尺寸音频基础模型，且文本问答性能保持强劲。
Raon-SpeechChat 通过119,000小时的时间对齐对话数据（真实与合成）进行持续训练，实现了全双工对话，支持轮换和中断检测。
研究团队开源了所有模型检查点、训练推理流程及交互式演示，便于社区复现和应用。

为什么重要

这条新闻值得关注，因为Raon-Speech 基于138万小时精选的英语和韩语语音及文本数据，经过三个阶段训练：语音模块对齐、端到端预训练（含知识蒸馏）、多任务偏好优化后训练。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

Raon-Speech 是一项由韩国研究团队（包括Beomsoo Kim等26位作者）开发的9B参数语音语言模型（SpeechLM），专门针对英语和韩语的语音理解、问答和生成任务。该模型的核心创新在于成功将预训练的大型语言模型（LLM）转化为既能理解又能生成语音的模型，同时保留了强大的文本处理能力。这一转化并非易事，但Raon-Speech通过精心设计的训练流程实现了这一目标，其训练过程分为三个阶段：首先是语音模块的对齐，使模型能够将语音输入与文本表示联系起来；其次是端到端的语音语言模型预训练，其中加入了知识蒸馏技术以提高效率；最后是基于多任务偏好优化的后训练，进一步微调模型行为。

训练数据集规模庞大，包含138万小时的高度精选的英语和韩语语音及文本数据。在评估阶段，研究团队在42项英语和韩语的语音及文本基准测试中，将Raon-Speech与八个近期发布的同尺寸音频基础模型进行了对比，包括Qwen2.5-Omni和Fun-Audio-Chat等。结果显示，Raon-Speech在语音中心任务上建立了最强的整体性能，同时其文本问答能力依然保持领先水平，这表明它在语音和文本模态之间取得了出色的平衡。

在Raon-Speech的基础上，研究团队进一步推出了Raon-SpeechChat，这是一个全双工扩展，旨在实现自然的实时对话。全双工对话意味着双方可以同时说话、互相打断，就像人类自然对话一样。Raon-SpeechChat通过持续训练119,000小时的时间对齐的真实和合成对话数据来实现这一功能。其训练同样包含三个阶段：因果编码器适应、全双工预训练以及全双工微调（用于声音和角色控制）。在多个全双工基准测试中，Raon-SpeechChat在FDB v1.0覆盖的轮换和中断敏感行为上表现最为突出，并且在更广泛的全双工评估套件中也保持了竞争力。

最令人印象深刻的是，研究团队决定将所有模型检查点、训练和推理流程以及一个交互式演示进行开源。这一举措将为全球的研究人员和开发者提供宝贵的资源，推动语音语言模型在实时对话等实际场景中的应用。Raon-Speech的工作展示了如何将强大的文本LLM扩展到语音模态，同时保持高性能和开源精神，这无疑是AI领域的一大进步。