人工分析語音到語音指數
Artificial Analysis 推出了全新的語音到語音指數,綜合評估原生語音模型的性能,包括語音推理、對話動態和代理能力。OpenAI GPT-Realtime-2 (High) 以77.2%的總分領先,xAI Grok Voice Think Fast 1.0 (75.7%)緊隨其後。Deepslate Opal 響應最快,而 Gemini 3.1 Flash 成本最低。
Artificial Analysis 宣佈推出全新的語音到語音指數(Speech to Speech Index),這是一個綜合性的合成指標,用於評估原生語音到語音模型的質量。該指數整合了 Big Bench Audio、Full Duplex Bench 和 τ-Voice 三個數據集,分別衡量語音推理、對話動態和代理性能。所有數據集的權重相同,模型必須在三個測試中均有有效結果才能被納入。
在首次評測中,OpenAI 的 GPT-Realtime-2 (High) 以 77.2% 的總分位居榜首,緊隨其後的是 xAI 的 Grok Voice Think Fast 1.0(75.7%)、GPT-Realtime-1.5(72.0%)和 Google 的 Gemini 3.1 Flash Live Preview (High)(69.5%)。對話動態和代理性能成為前沿模型的關鍵差異化因素——GPT-Realtime-2 在對話動態上領先,而 Grok Voice Think Fast 1.0 則在代理性能上表現最佳。
在速度方面,Deepslate Opal 以 0.44 秒的首幀音頻時間(TTFA)成為最快的模型,得分為 62.1%;GPT-Realtime-1.5 的 TTFA 為 0.82 秒(得分 72.0%);Grok Voice Think Fast 1.0 為 1.25 秒(得分 75.7%);GPT-Realtime-2 (High) 為 2.33 秒(得分 77.2%);Gemini 3.1 Flash Live Preview (High) 為 2.98 秒(得分 69.5%)。
成本方面,Gemini 3.1 Flash Live Preview (Minimal) 以每小時 1.50 美元成為最便宜的模型(得分 56.6%),其次是 Gemini 3.1 Flash Live Preview (High) 的 1.75 美元(得分 69.5%)、Grok Voice Think Fast 1.0 的 3.00 美元(得分 75.7%)和 GPT-Realtime-2 (High) 的 4.14 美元(得分 77.2%)。
指數所使用的數據集包括:Big Bench Audio——包含 1000 道推理題,涵蓋形式謬誤、導航、對象計數和謊言網絡;Full Duplex Bench——評估停頓處理、話輪轉換、中斷和反饋處理;τ-Voice——評估航空、零售和電信領域的端到端客服任務完成情況。這些測試揭示了前沿原生語音模型的能力差異,其中代理性能是難度最大的維度——Grok Voice Think Fast 1.0 以 52.1% 領先,而 GPT-Realtime-2 (High) 為 39.8%,所有模型均低於 53%。
Artificial Analysis 表示將持續迭代這些基準測試,並計劃納入更多模型。