新型开源语音模型持续监听,每0.4秒决定是否说话或保持沉默
与GPT-4o或Qwen3.5-Omni不同,Audio Interaction无需等待录音结束:它能在单一流中翻译、转录、聊天并识别咳嗽等日常噪音。代码、模型权重和下载说明已在GitHub上以Apache 2.0开源许可发布,训练数据将后续提供。
近日,一款名为Audio Interaction的新型开源语音模型引发了广泛关注。与传统的语音模型如GPT-4o或Qwen3.5-Omni不同,Audio Interaction不需要等待录音结束再进行处理,而是能够持续监听音频流,并每0.4秒决定是否说话或保持沉默。
该模型的功能十分强大,它可以在单一音频流中同时进行翻译、转录、对话,甚至能够识别咳嗽等日常环境噪音。这意味着用户无需频繁切换模式或等待处理完成,即可获得实时的语音交互体验。
目前,Audio Interaction的代码、模型权重以及下载说明已在GitHub上发布,采用Apache 2.0开源许可。开发团队表示,训练数据也将在后续提供,以便研究者和开发者能够进一步探索和改进该模型。
Audio Interaction的出现,为开源语音模型领域带来了新的可能性,尤其在实时交互和多功能融合方面展现了显著优势。