2026-06-06 18:50 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

新型開源語音模型持續監聽，每0.4秒決定是否説話或保持沉默

與GPT-4o或Qwen3.5-Omni不同，Audio Interaction無需等待錄音結束：它能在單一流中翻譯、轉錄、聊天並識別咳嗽等日常噪音。代碼、模型權重和下載説明已在GitHub上以Apache 2.0開源許可發佈，訓練數據將後續提供。

來源The Decoder作者: Jonathan Kemper

近日，一款名為Audio Interaction的新型開源語音模型引發了廣泛關注。與傳統的語音模型如GPT-4o或Qwen3.5-Omni不同，Audio Interaction不需要等待錄音結束再進行處理，而是能夠持續監聽音頻流，並每0.4秒決定是否説話或保持沉默。

該模型的功能十分強大，它可以在單一音頻流中同時進行翻譯、轉錄、對話，甚至能夠識別咳嗽等日常環境噪音。這意味着用户無需頻繁切換模式或等待處理完成，即可獲得實時的語音交互體驗。

目前，Audio Interaction的代碼、模型權重以及下載説明已在GitHub上發佈，採用Apache 2.0開源許可。開發團隊表示，訓練數據也將在後續提供，以便研究者和開發者能夠進一步探索和改進該模型。

Audio Interaction的出現，為開源語音模型領域帶來了新的可能性，尤其在實時交互和多功能融合方面展現了顯著優勢。