2026-05-25 06:51 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

StepFun發佈StepAudio 2.5 Realtime：端到端語音模型，具備角色扮演專用RLHF和副語言理解

上海AI實驗室StepFun發佈StepAudio 2.5 Realtime，一款端到端實時語音大語言模型，支持自定義角色。通過WebSocket API連接，支持中英文。在2026年4月的五項基準測試中均排名第一，人類評估得分80.41，副語言理解得分82.18。

來源MarkTechPost作者: Michal Sutter

StepFun，這家總部位於上海的AI實驗室，於2026年5月發佈了StepAudio 2.5 Realtime。這是一款端到端的實時語音大語言模型，具有完全可自定義的角色功能。與傳統的流水線系統不同，該模型將語音識別、推理和合成統一為單一系統，音頻輸入後直接輸出音頻。它支持中文和英語，通過WebSocket API（wss://api.stepfun.com/v1/realtime，模型字符串step-2.5-realtime）進行連接。

該模型的技術核心包括三大創新：第一，百萬級角色數據增強。StepFun從超過10,000個高質量原生角色出發，通過算法增強構建了百萬級角色特徵矩陣，並結合數百萬真實對話樣本進行訓練，旨在實現泛化能力，特別是在困難的長尾對話主題上表現穩定。第二，角色扮演專用RLHF對齊。為了解決對話AI中常見的“出角色”問題（即模型在對話中偏離其定義角色），StepFun團隊專門針對角色扮演場景進行了RLHF優化，利用人類偏好信號訓練獎勵模型，引導語言模型行為，確保角色一致性。第三，統一語音理解與生成。StepAudio 2.5 Realtime繼承了StepAudio 2.5的TTS能力，並通過強化學習深度融合語音理解與生成，實現了所謂的“全局場景級語調設置”和“句內細節雕琢”，模型可以設定響應的整體情緒基調，同時調整單個句子內的細微聲學細節。

副語言理解是該模型的一個關鍵技術差異化點。副語言指的是語音中的非語言聲學信息，如語調、語速、停頓、嘆息和笑聲。通過分析這些元素，模型可以感知用户的情緒和潛在意圖。例如，它可以從低沉的語調中識別疲勞，或從急促的語速中識別沮喪。這要求模型基於音頻特徵而非轉錄文本進行操作。StepAudio 2.5 Realtime在副語言理解基準測試中得分82.18，展示了其對語速、情緒、年齡等聲學特徵的感知能力。

在基準測試方面，StepFun研究團隊進行了全面的主觀和客觀評估，將StepAudio 2.5 Realtime與領先的實時語音模型進行了五個維度的比較。人類評估（主觀）得分為80.41，通用對話（客觀）86.36，汽車場景（客觀）84.80，口語問答（包含11項音頻理解任務，客觀）79.80，副語言理解（客觀）82.18。所有維度均排名第一。

關鍵要點：StepAudio 2.5 Realtime是上海StepFun發佈的端到端實時語音LLM；使用角色專用RLHF和百萬級數據增強來保持穩定的角色一致性；在2026年4月測試的五項基準中均排名第一；副語言理解是核心差異點；API通過WebSocket提供。更多詳情可查看模型卡和演示。