2026-06-25 11:40 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-25 12:12 UTC+8

人工分析語音到語音指數

Artificial Analysis 推出了全新的語音到語音指數，綜合評估原生語音模型的性能，包括語音推理、對話動態和代理能力。OpenAI GPT-Realtime-2 (High) 以77.2%的總分領先，xAI Grok Voice Think Fast 1.0 (75.7%)緊隨其後。Deepslate Opal 響應最快，而 Gemini 3.1 Flash 成本最低。

來源Hacker News AI作者: theanonymousone

Artificial Analysis 宣佈推出全新的語音到語音指數（Speech to Speech Index），這是一個綜合性的合成指標，用於評估原生語音到語音模型的質量。該指數整合了 Big Bench Audio、Full Duplex Bench 和 τ-Voice 三個數據集，分別衡量語音推理、對話動態和代理性能。所有數據集的權重相同，模型必須在三個測試中均有有效結果才能被納入。

在首次評測中，OpenAI 的 GPT-Realtime-2 (High) 以 77.2% 的總分位居榜首，緊隨其後的是 xAI 的 Grok Voice Think Fast 1.0（75.7%）、GPT-Realtime-1.5（72.0%）和 Google 的 Gemini 3.1 Flash Live Preview (High)（69.5%）。對話動態和代理性能成為前沿模型的關鍵差異化因素——GPT-Realtime-2 在對話動態上領先，而 Grok Voice Think Fast 1.0 則在代理性能上表現最佳。

在速度方面，Deepslate Opal 以 0.44 秒的首幀音頻時間（TTFA）成為最快的模型，得分為 62.1%；GPT-Realtime-1.5 的 TTFA 為 0.82 秒（得分 72.0%）；Grok Voice Think Fast 1.0 為 1.25 秒（得分 75.7%）；GPT-Realtime-2 (High) 為 2.33 秒（得分 77.2%）；Gemini 3.1 Flash Live Preview (High) 為 2.98 秒（得分 69.5%）。

成本方面，Gemini 3.1 Flash Live Preview (Minimal) 以每小時 1.50 美元成為最便宜的模型（得分 56.6%），其次是 Gemini 3.1 Flash Live Preview (High) 的 1.75 美元（得分 69.5%）、Grok Voice Think Fast 1.0 的 3.00 美元（得分 75.7%）和 GPT-Realtime-2 (High) 的 4.14 美元（得分 77.2%）。

指數所使用的數據集包括：Big Bench Audio——包含 1000 道推理題，涵蓋形式謬誤、導航、對象計數和謊言網絡；Full Duplex Bench——評估停頓處理、話輪轉換、中斷和反饋處理；τ-Voice——評估航空、零售和電信領域的端到端客服任務完成情況。這些測試揭示了前沿原生語音模型的能力差異，其中代理性能是難度最大的維度——Grok Voice Think Fast 1.0 以 52.1% 領先，而 GPT-Realtime-2 (High) 為 39.8%，所有模型均低於 53%。

Artificial Analysis 表示將持續迭代這些基準測試，並計劃納入更多模型。