StepFun发布StepAudio 2.5 Realtime:端到端语音模型,具备角色扮演专用RLHF和副语言理解
上海AI实验室StepFun发布StepAudio 2.5 Realtime,一款端到端实时语音大语言模型,支持自定义角色。通过WebSocket API连接,支持中英文。在2026年4月的五项基准测试中均排名第一,人类评估得分80.41,副语言理解得分82.18。
文章情报
要点
- StepAudio 2.5 Realtime是端到端实时语音LLM,支持自定义角色。
- 采用百万级角色数据增强和角色扮演专用RLHF,保持角色一致性。
- 具备副语言理解能力,可感知语气、语速、情绪等。
- 在五项基准测试中均排名第一,API通过WebSocket提供。
为什么重要
这条新闻值得关注,因为StepAudio 2.5 Realtime是端到端实时语音LLM,支持自定义角色。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
StepFun,这家总部位于上海的AI实验室,于2026年5月发布了StepAudio 2.5 Realtime。这是一款端到端的实时语音大语言模型,具有完全可自定义的角色功能。与传统的流水线系统不同,该模型将语音识别、推理和合成统一为单一系统,音频输入后直接输出音频。它支持中文和英语,通过WebSocket API(wss://api.stepfun.com/v1/realtime,模型字符串step-2.5-realtime)进行连接。
该模型的技术核心包括三大创新:第一,百万级角色数据增强。StepFun从超过10,000个高质量原生角色出发,通过算法增强构建了百万级角色特征矩阵,并结合数百万真实对话样本进行训练,旨在实现泛化能力,特别是在困难的长尾对话主题上表现稳定。第二,角色扮演专用RLHF对齐。为了解决对话AI中常见的“出角色”问题(即模型在对话中偏离其定义角色),StepFun团队专门针对角色扮演场景进行了RLHF优化,利用人类偏好信号训练奖励模型,引导语言模型行为,确保角色一致性。第三,统一语音理解与生成。StepAudio 2.5 Realtime继承了StepAudio 2.5的TTS能力,并通过强化学习深度融合语音理解与生成,实现了所谓的“全局场景级语调设置”和“句内细节雕琢”,模型可以设定响应的整体情绪基调,同时调整单个句子内的细微声学细节。
副语言理解是该模型的一个关键技术差异化点。副语言指的是语音中的非语言声学信息,如语调、语速、停顿、叹息和笑声。通过分析这些元素,模型可以感知用户的情绪和潜在意图。例如,它可以从低沉的语调中识别疲劳,或从急促的语速中识别沮丧。这要求模型基于音频特征而非转录文本进行操作。StepAudio 2.5 Realtime在副语言理解基准测试中得分82.18,展示了其对语速、情绪、年龄等声学特征的感知能力。
在基准测试方面,StepFun研究团队进行了全面的主观和客观评估,将StepAudio 2.5 Realtime与领先的实时语音模型进行了五个维度的比较。人类评估(主观)得分为80.41,通用对话(客观)86.36,汽车场景(客观)84.80,口语问答(包含11项音频理解任务,客观)79.80,副语言理解(客观)82.18。所有维度均排名第一。
关键要点:StepAudio 2.5 Realtime是上海StepFun发布的端到端实时语音LLM;使用角色专用RLHF和百万级数据增强来保持稳定的角色一致性;在2026年4月测试的五项基准中均排名第一;副语言理解是核心差异点;API通过WebSocket提供。更多详情可查看模型卡和演示。