AI News HubLIVE
站内改写1 分鐘閱讀

新型開源語音模型持續監聽,每0.4秒決定是否說話或保持沉默

與GPT-4o或Qwen3.5-Omni不同,Audio Interaction無需等待錄音結束:它能在單一流中翻譯、轉錄、聊天並識別咳嗽等日常噪音。程式碼、模型權重和下載說明已在GitHub上以Apache 2.0開源許可釋出,訓練資料將後續提供。

來源The Decoder作者: Jonathan Kemper

近日,一款名為Audio Interaction的新型開源語音模型引發了廣泛關注。與傳統的語音模型如GPT-4o或Qwen3.5-Omni不同,Audio Interaction不需要等待錄音結束再進行處理,而是能夠持續監聽音訊流,並每0.4秒決定是否說話或保持沉默。

該模型的功能十分強大,它可以在單一音訊流中同時進行翻譯、轉錄、對話,甚至能夠識別咳嗽等日常環境噪音。這意味著使用者無需頻繁切換模式或等待處理完成,即可獲得即時的語音互動體驗。

目前,Audio Interaction的程式碼、模型權重以及下載說明已在GitHub上釋出,採用Apache 2.0開源許可。開發團隊表示,訓練資料也將在後續提供,以便研究者和開發者能夠進一步探索和改進該模型。

Audio Interaction的出現,為開源語音模型領域帶來了新的可能性,尤其在即時互動和多功能融合方面展現了顯著優勢。

新型開源語音模型持續監聽,每0.4秒決定是否說話或保持沉默 | AI News Hub