AI News HubLIVE
站内改写1 分钟阅读

人工分析语音到语音指数

Artificial Analysis 推出了全新的语音到语音指数,综合评估原生语音模型的性能,包括语音推理、对话动态和代理能力。OpenAI GPT-Realtime-2 (High) 以77.2%的总分领先,xAI Grok Voice Think Fast 1.0 (75.7%)紧随其后。Deepslate Opal 响应最快,而 Gemini 3.1 Flash 成本最低。

来源Hacker News AI作者: theanonymousone

Artificial Analysis 宣布推出全新的语音到语音指数(Speech to Speech Index),这是一个综合性的合成指标,用于评估原生语音到语音模型的质量。该指数整合了 Big Bench Audio、Full Duplex Bench 和 τ-Voice 三个数据集,分别衡量语音推理、对话动态和代理性能。所有数据集的权重相同,模型必须在三个测试中均有有效结果才能被纳入。

在首次评测中,OpenAI 的 GPT-Realtime-2 (High) 以 77.2% 的总分位居榜首,紧随其后的是 xAI 的 Grok Voice Think Fast 1.0(75.7%)、GPT-Realtime-1.5(72.0%)和 Google 的 Gemini 3.1 Flash Live Preview (High)(69.5%)。对话动态和代理性能成为前沿模型的关键差异化因素——GPT-Realtime-2 在对话动态上领先,而 Grok Voice Think Fast 1.0 则在代理性能上表现最佳。

在速度方面,Deepslate Opal 以 0.44 秒的首帧音频时间(TTFA)成为最快的模型,得分为 62.1%;GPT-Realtime-1.5 的 TTFA 为 0.82 秒(得分 72.0%);Grok Voice Think Fast 1.0 为 1.25 秒(得分 75.7%);GPT-Realtime-2 (High) 为 2.33 秒(得分 77.2%);Gemini 3.1 Flash Live Preview (High) 为 2.98 秒(得分 69.5%)。

成本方面,Gemini 3.1 Flash Live Preview (Minimal) 以每小时 1.50 美元成为最便宜的模型(得分 56.6%),其次是 Gemini 3.1 Flash Live Preview (High) 的 1.75 美元(得分 69.5%)、Grok Voice Think Fast 1.0 的 3.00 美元(得分 75.7%)和 GPT-Realtime-2 (High) 的 4.14 美元(得分 77.2%)。

指数所使用的数据集包括:Big Bench Audio——包含 1000 道推理题,涵盖形式谬误、导航、对象计数和谎言网络;Full Duplex Bench——评估停顿处理、话轮转换、中断和反馈处理;τ-Voice——评估航空、零售和电信领域的端到端客服任务完成情况。这些测试揭示了前沿原生语音模型的能力差异,其中代理性能是难度最大的维度——Grok Voice Think Fast 1.0 以 52.1% 领先,而 GPT-Realtime-2 (High) 为 39.8%,所有模型均低于 53%。

Artificial Analysis 表示将持续迭代这些基准测试,并计划纳入更多模型。