2026-06-25 11:40 UTC+8站内改写1 分钟阅读更新: 2026-06-25 12:12 UTC+8

人工分析语音到语音指数

Artificial Analysis 推出了全新的语音到语音指数，综合评估原生语音模型的性能，包括语音推理、对话动态和代理能力。OpenAI GPT-Realtime-2 (High) 以77.2%的总分领先，xAI Grok Voice Think Fast 1.0 (75.7%)紧随其后。Deepslate Opal 响应最快，而 Gemini 3.1 Flash 成本最低。

来源Hacker News AI作者: theanonymousone

Artificial Analysis 宣布推出全新的语音到语音指数（Speech to Speech Index），这是一个综合性的合成指标，用于评估原生语音到语音模型的质量。该指数整合了 Big Bench Audio、Full Duplex Bench 和 τ-Voice 三个数据集，分别衡量语音推理、对话动态和代理性能。所有数据集的权重相同，模型必须在三个测试中均有有效结果才能被纳入。

在首次评测中，OpenAI 的 GPT-Realtime-2 (High) 以 77.2% 的总分位居榜首，紧随其后的是 xAI 的 Grok Voice Think Fast 1.0（75.7%）、GPT-Realtime-1.5（72.0%）和 Google 的 Gemini 3.1 Flash Live Preview (High)（69.5%）。对话动态和代理性能成为前沿模型的关键差异化因素——GPT-Realtime-2 在对话动态上领先，而 Grok Voice Think Fast 1.0 则在代理性能上表现最佳。

在速度方面，Deepslate Opal 以 0.44 秒的首帧音频时间（TTFA）成为最快的模型，得分为 62.1%；GPT-Realtime-1.5 的 TTFA 为 0.82 秒（得分 72.0%）；Grok Voice Think Fast 1.0 为 1.25 秒（得分 75.7%）；GPT-Realtime-2 (High) 为 2.33 秒（得分 77.2%）；Gemini 3.1 Flash Live Preview (High) 为 2.98 秒（得分 69.5%）。

成本方面，Gemini 3.1 Flash Live Preview (Minimal) 以每小时 1.50 美元成为最便宜的模型（得分 56.6%），其次是 Gemini 3.1 Flash Live Preview (High) 的 1.75 美元（得分 69.5%）、Grok Voice Think Fast 1.0 的 3.00 美元（得分 75.7%）和 GPT-Realtime-2 (High) 的 4.14 美元（得分 77.2%）。

指数所使用的数据集包括：Big Bench Audio——包含 1000 道推理题，涵盖形式谬误、导航、对象计数和谎言网络；Full Duplex Bench——评估停顿处理、话轮转换、中断和反馈处理；τ-Voice——评估航空、零售和电信领域的端到端客服任务完成情况。这些测试揭示了前沿原生语音模型的能力差异，其中代理性能是难度最大的维度——Grok Voice Think Fast 1.0 以 52.1% 领先，而 GPT-Realtime-2 (High) 为 39.8%，所有模型均低于 53%。

Artificial Analysis 表示将持续迭代这些基准测试，并计划纳入更多模型。