2026-06-06 18:50 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

新型开源语音模型持续监听，每0.4秒决定是否说话或保持沉默

与GPT-4o或Qwen3.5-Omni不同，Audio Interaction无需等待录音结束：它能在单一流中翻译、转录、聊天并识别咳嗽等日常噪音。代码、模型权重和下载说明已在GitHub上以Apache 2.0开源许可发布，训练数据将后续提供。

来源The Decoder作者: Jonathan Kemper

近日，一款名为Audio Interaction的新型开源语音模型引发了广泛关注。与传统的语音模型如GPT-4o或Qwen3.5-Omni不同，Audio Interaction不需要等待录音结束再进行处理，而是能够持续监听音频流，并每0.4秒决定是否说话或保持沉默。

该模型的功能十分强大，它可以在单一音频流中同时进行翻译、转录、对话，甚至能够识别咳嗽等日常环境噪音。这意味着用户无需频繁切换模式或等待处理完成，即可获得实时的语音交互体验。

目前，Audio Interaction的代码、模型权重以及下载说明已在GitHub上发布，采用Apache 2.0开源许可。开发团队表示，训练数据也将在后续提供，以便研究者和开发者能够进一步探索和改进该模型。

Audio Interaction的出现，为开源语音模型领域带来了新的可能性，尤其在实时交互和多功能融合方面展现了显著优势。