2026-05-25 06:51 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

StepFun发布StepAudio 2.5 Realtime：端到端语音模型，具备角色扮演专用RLHF和副语言理解

上海AI实验室StepFun发布StepAudio 2.5 Realtime，一款端到端实时语音大语言模型，支持自定义角色。通过WebSocket API连接，支持中英文。在2026年4月的五项基准测试中均排名第一，人类评估得分80.41，副语言理解得分82.18。

来源MarkTechPost作者: Michal Sutter

StepFun，这家总部位于上海的AI实验室，于2026年5月发布了StepAudio 2.5 Realtime。这是一款端到端的实时语音大语言模型，具有完全可自定义的角色功能。与传统的流水线系统不同，该模型将语音识别、推理和合成统一为单一系统，音频输入后直接输出音频。它支持中文和英语，通过WebSocket API（wss://api.stepfun.com/v1/realtime，模型字符串step-2.5-realtime）进行连接。

该模型的技术核心包括三大创新：第一，百万级角色数据增强。StepFun从超过10,000个高质量原生角色出发，通过算法增强构建了百万级角色特征矩阵，并结合数百万真实对话样本进行训练，旨在实现泛化能力，特别是在困难的长尾对话主题上表现稳定。第二，角色扮演专用RLHF对齐。为了解决对话AI中常见的“出角色”问题（即模型在对话中偏离其定义角色），StepFun团队专门针对角色扮演场景进行了RLHF优化，利用人类偏好信号训练奖励模型，引导语言模型行为，确保角色一致性。第三，统一语音理解与生成。StepAudio 2.5 Realtime继承了StepAudio 2.5的TTS能力，并通过强化学习深度融合语音理解与生成，实现了所谓的“全局场景级语调设置”和“句内细节雕琢”，模型可以设定响应的整体情绪基调，同时调整单个句子内的细微声学细节。

副语言理解是该模型的一个关键技术差异化点。副语言指的是语音中的非语言声学信息，如语调、语速、停顿、叹息和笑声。通过分析这些元素，模型可以感知用户的情绪和潜在意图。例如，它可以从低沉的语调中识别疲劳，或从急促的语速中识别沮丧。这要求模型基于音频特征而非转录文本进行操作。StepAudio 2.5 Realtime在副语言理解基准测试中得分82.18，展示了其对语速、情绪、年龄等声学特征的感知能力。

在基准测试方面，StepFun研究团队进行了全面的主观和客观评估，将StepAudio 2.5 Realtime与领先的实时语音模型进行了五个维度的比较。人类评估（主观）得分为80.41，通用对话（客观）86.36，汽车场景（客观）84.80，口语问答（包含11项音频理解任务，客观）79.80，副语言理解（客观）82.18。所有维度均排名第一。

关键要点：StepAudio 2.5 Realtime是上海StepFun发布的端到端实时语音LLM；使用角色专用RLHF和百万级数据增强来保持稳定的角色一致性；在2026年4月测试的五项基准中均排名第一；副语言理解是核心差异点；API通过WebSocket提供。更多详情可查看模型卡和演示。