2026-06-06 19:50 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

新しいオープンソース音声モデルはノンストップでリスニングし、0.4秒ごとに発話するか沈黙するかを判断する

GPT-4oやQwen3.5-Omniとは異なり、Audio Interactionは録音の終了を待たず、翻訳、文字起こし、チャット、咳などの日常的なノイズを単一ストリームで処理します。コード、モデル重み、ダウンロード手順はGitHubでApache 2.0ライセンスで公開されており、トレーニングデータは後日提供予定です。

ソースThe Decoder著者: Jonathan Kemper

記事インテリジェンス

エンジニア中級

要点

Audio Interactionモデルはオーディオストリームを継続的にリスニングし、0.4秒ごとに判断を下す。
翻訳、文字起こし、チャット、日常ノイズ認識を単一ストリームで実行可能。
コードとモデル重みはGitHubでオープンソース化され、トレーニングデータも後日公開予定。

重要な理由

このニュースが重要なのは、Audio Interactionモデルはオーディオストリームを継続的にリスニングし、0.4秒ごとに判断を下すためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

最近、Audio Interactionと呼ばれる新しいオープンソース音声モデルが注目を集めています。GPT-4oやQwen3.5-Omniとは異なり、このモデルは録音の終了を待たずにオーディオストリームを継続的にリスニングし、0.4秒ごとに発話するか沈黙するかを決定します。

このモデルは非常に多機能で、翻訳、文字起こし、チャット、さらに咳などの日常的な環境ノイズを単一のストリームで処理できます。これにより、ユーザーはモードを切り替えたり処理の完了を待つことなく、リアルタイムの音声インタラクションを体験できます。

現在、Audio Interactionのコード、モデル重み、ダウンロード手順がGitHubでApache 2.0ライセンスの下で公開されています。開発チームは、研究者や開発者がさらにモデルを探求・改善できるよう、トレーニングデータも後日提供する予定です。

Audio Interactionの登場は、特にリアルタイムインタラクションと多機能統合の面で、オープンソース音声モデルの分野に新たな可能性をもたらしています。