2026-06-06 18:50 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

新型開源語音模型持續監聽，每0.4秒決定是否說話或保持沉默

與GPT-4o或Qwen3.5-Omni不同，Audio Interaction無需等待錄音結束：它能在單一流中翻譯、轉錄、聊天並識別咳嗽等日常噪音。程式碼、模型權重和下載說明已在GitHub上以Apache 2.0開源許可釋出，訓練資料將後續提供。

來源The Decoder作者: Jonathan Kemper

近日，一款名為Audio Interaction的新型開源語音模型引發了廣泛關注。與傳統的語音模型如GPT-4o或Qwen3.5-Omni不同，Audio Interaction不需要等待錄音結束再進行處理，而是能夠持續監聽音訊流，並每0.4秒決定是否說話或保持沉默。

該模型的功能十分強大，它可以在單一音訊流中同時進行翻譯、轉錄、對話，甚至能夠識別咳嗽等日常環境噪音。這意味著使用者無需頻繁切換模式或等待處理完成，即可獲得即時的語音互動體驗。

目前，Audio Interaction的程式碼、模型權重以及下載說明已在GitHub上釋出，採用Apache 2.0開源許可。開發團隊表示，訓練資料也將在後續提供，以便研究者和開發者能夠進一步探索和改進該模型。

Audio Interaction的出現，為開源語音模型領域帶來了新的可能性，尤其在即時互動和多功能融合方面展現了顯著優勢。