AI News HubLIVE
站内改写1 分で読了

新しいオープンソース音声モデルはノンストップでリスニングし、0.4秒ごとに発話するか沈黙するかを判断する

GPT-4oやQwen3.5-Omniとは異なり、Audio Interactionは録音の終了を待たず、翻訳、文字起こし、チャット、咳などの日常的なノイズを単一ストリームで処理します。コード、モデル重み、ダウンロード手順はGitHubでApache 2.0ライセンスで公開されており、トレーニングデータは後日提供予定です。

ソースThe Decoder著者: Jonathan Kemper

最近、Audio Interactionと呼ばれる新しいオープンソース音声モデルが注目を集めています。GPT-4oやQwen3.5-Omniとは異なり、このモデルは録音の終了を待たずにオーディオストリームを継続的にリスニングし、0.4秒ごとに発話するか沈黙するかを決定します。

このモデルは非常に多機能で、翻訳、文字起こし、チャット、さらに咳などの日常的な環境ノイズを単一のストリームで処理できます。これにより、ユーザーはモードを切り替えたり処理の完了を待つことなく、リアルタイムの音声インタラクションを体験できます。

現在、Audio Interactionのコード、モデル重み、ダウンロード手順がGitHubでApache 2.0ライセンスの下で公開されています。開発チームは、研究者や開発者がさらにモデルを探求・改善できるよう、トレーニングデータも後日提供する予定です。

Audio Interactionの登場は、特にリアルタイムインタラクションと多機能統合の面で、オープンソース音声モデルの分野に新たな可能性をもたらしています。

新しいオープンソース音声モデルはノンストップでリスニングし、0.4秒ごとに発話するか沈黙するかを判断する | AI News Hub