Artificial Analysis 音声対音声インデックス
Artificial Analysis は、音声推論、会話ダイナミクス、エージェント性能を評価する新しい音声対音声インデックスを発表。OpenAI GPT-Realtime-2 (High) が総合77.2%で首位、xAI Grok Voice Think Fast 1.0が75.7%で続く。Deepslate Opal は最速、Gemini 3.1 Flash は最もコスト効率が高い。
Artificial Analysis は、新しい音声対音声インデックス(Speech to Speech Index)の発表を行いました。これは、ネイティブ音声対音声モデルの品質を評価するための合成指標であり、Big Bench Audio、Full Duplex Bench、τ-Voice の3つのデータセットを組み合わせています。それぞれ、音声推論、会話ダイナミクス、エージェント性能を測定します。すべてのデータセットの重みは均等で、モデルは3つすべてで有効な結果を持つ必要があります。
最初の評価では、OpenAI の GPT-Realtime-2 (High) が総合77.2%でトップ、次いで xAI の Grok Voice Think Fast 1.0(75.7%)、GPT-Realtime-1.5(72.0%)、Google の Gemini 3.1 Flash Live Preview (High)(69.5%)が続きました。会話ダイナミクスとエージェント性能がフロンティアモデルの主要な差別化要因となっており、GPT-Realtime-2 は会話ダイナミクスで、Grok Voice Think Fast 1.0 はエージェント性能でリードしています。
速度面では、Deepslate Opal が初回音声到達時間(TTFA)0.44秒で最速、スコアは62.1%でした。GPT-Realtime-1.5 は0.82秒(72.0%)、Grok Voice Think Fast 1.0 は1.25秒(75.7%)、GPT-Realtime-2 (High) は2.33秒(77.2%)、Gemini 3.1 Flash Live Preview (High) は2.98秒(69.5%)でした。
コスト面では、Gemini 3.1 Flash Live Preview (Minimal) が1時間あたり1.50ドルで最も低コスト(スコア56.6%)、次いで Gemini 3.1 Flash Live Preview (High) が1.75ドル(69.5%)、Grok Voice Think Fast 1.0 が3.00ドル(75.7%)、GPT-Realtime-2 (High) が4.14ドル(77.2%)でした。
使用されたデータセットの詳細は以下の通りです。Big Bench Audio:形式論的誤謬、ナビゲーション、物体計数、嘘の網を含む1000問の推論問題。Full Duplex Bench:ポーズ処理、ターンテイキング、割り込み、バックチャネル処理。τ-Voice:航空、小売、通信分野におけるエンドツーエンドのカスタマーサービスタスク完了。これらのテストは、フロンティアのネイティブ音声モデルの能力の違いを明らかにしており、エージェント性能が最も困難な次元であることが示されました。Grok Voice Think Fast 1.0 が52.1%でリードし、GPT-Realtime-2 (High) が39.8%で続き、すべてのモデルが53%を下回っています。
Artificial Analysis は、これらのベンチマークを継続的に改良し、さらに多くのモデルを追加する予定であると述べています。