AI News HubLIVE
站内改写1 分钟阅读

大型音频语言模型的连续音频思考

CoAT框架为大型音频语言模型引入连续潜空间,通过专家蒸馏保留声学信息,在无需额外解码成本的情况下提升性能。

来源arXiv Computational Linguistics作者: Gyojin Han, Dong-Jae Lee, Changho Choi, Jongsuk Kim, Junmo Kim

大型音频语言模型(LALM)在语音转录、音乐分析等任务上表现出色,但由于训练目标是生成文本对齐的响应,隐藏状态逐渐偏向文本生成,导致音频中的丰富声学信息(如语音细节、韵律、事件、情感、音调等)丢失。为解决这一问题,研究人员提出了连续音频思考(CoAT)框架。

CoAT为LALM配备了一个连续的潜在工作空间,在响应生成前组织声学信息,该空间通过从音频专家模型蒸馏知识来构建。模型可以在思考空间中利用丰富的声学信息,而CoAT的思考块可以在单次预填充中处理,不增加额外的自回归解码成本。

在Qwen2-Audio、Qwen2.5-Omni-7B和Audio Flamingo 3三个模型上的实验表明,CoAT在音频推理、理解、音乐分类、语音情感识别和语音转录等基准测试中均取得了性能提升。进一步分析证实,辅助监督信号从思考位置传播到模型的文本响应。此外,CoAT框架的设计使其易于集成到现有LALM中,无需修改模型架构,仅需添加一个连续思考块。实验结果显示,在语音情感识别任务上,CoAT将准确率提升了3-5个百分点;在音乐分类任务中,F1分数提高了约4%。这些改进直接源于对声学信息的更好保留,尤其是音高、响度和音色等细节。CoAT的提出为多模态语言模型的发展提供了新思路,特别适用于需要精细声学理解的场景,如医疗听诊、环境声音分析等。未来工作可能扩展到视频语音同步和跨模态推理。