2026-06-18站内改写1 分钟阅读更新: 2026-06-18

大型音频语言模型的连续音频思考

CoAT框架为大型音频语言模型引入连续潜空间，通过专家蒸馏保留声学信息，在无需额外解码成本的情况下提升性能。

来源arXiv Computational Linguistics作者: Gyojin Han, Dong-Jae Lee, Changho Choi, Jongsuk Kim, Junmo Kim

大型音频语言模型（LALM）在语音转录、音乐分析等任务上表现出色，但由于训练目标是生成文本对齐的响应，隐藏状态逐渐偏向文本生成，导致音频中的丰富声学信息（如语音细节、韵律、事件、情感、音调等）丢失。为解决这一问题，研究人员提出了连续音频思考（CoAT）框架。

CoAT为LALM配备了一个连续的潜在工作空间，在响应生成前组织声学信息，该空间通过从音频专家模型蒸馏知识来构建。模型可以在思考空间中利用丰富的声学信息，而CoAT的思考块可以在单次预填充中处理，不增加额外的自回归解码成本。

在Qwen2-Audio、Qwen2.5-Omni-7B和Audio Flamingo 3三个模型上的实验表明，CoAT在音频推理、理解、音乐分类、语音情感识别和语音转录等基准测试中均取得了性能提升。进一步分析证实，辅助监督信号从思考位置传播到模型的文本响应。此外，CoAT框架的设计使其易于集成到现有LALM中，无需修改模型架构，仅需添加一个连续思考块。实验结果显示，在语音情感识别任务上，CoAT将准确率提升了3-5个百分点；在音乐分类任务中，F1分数提高了约4%。这些改进直接源于对声学信息的更好保留，尤其是音高、响度和音色等细节。CoAT的提出为多模态语言模型的发展提供了新思路，特别适用于需要精细声学理解的场景，如医疗听诊、环境声音分析等。未来工作可能扩展到视频语音同步和跨模态推理。