AI News HubLIVE
站内改写1 分鐘閱讀

新型開源語音模型持續監聽,每0.4秒決定是否説話或保持沉默

與GPT-4o或Qwen3.5-Omni不同,Audio Interaction無需等待錄音結束:它能在單一流中翻譯、轉錄、聊天並識別咳嗽等日常噪音。代碼、模型權重和下載説明已在GitHub上以Apache 2.0開源許可發佈,訓練數據將後續提供。

來源The Decoder作者: Jonathan Kemper

近日,一款名為Audio Interaction的新型開源語音模型引發了廣泛關注。與傳統的語音模型如GPT-4o或Qwen3.5-Omni不同,Audio Interaction不需要等待錄音結束再進行處理,而是能夠持續監聽音頻流,並每0.4秒決定是否説話或保持沉默。

該模型的功能十分強大,它可以在單一音頻流中同時進行翻譯、轉錄、對話,甚至能夠識別咳嗽等日常環境噪音。這意味着用户無需頻繁切換模式或等待處理完成,即可獲得實時的語音交互體驗。

目前,Audio Interaction的代碼、模型權重以及下載説明已在GitHub上發佈,採用Apache 2.0開源許可。開發團隊表示,訓練數據也將在後續提供,以便研究者和開發者能夠進一步探索和改進該模型。

Audio Interaction的出現,為開源語音模型領域帶來了新的可能性,尤其在實時交互和多功能融合方面展現了顯著優勢。