AI News HubLIVE
站内改写

StepFun發佈StepAudio 2.5 Realtime:端到端語音模型,具備角色扮演專用RLHF和副語言理解

上海AI實驗室StepFun發佈StepAudio 2.5 Realtime,一款端到端實時語音大語言模型,支持自定義角色。通過WebSocket API連接,支持中英文。在2026年4月的五項基準測試中均排名第一,人類評估得分80.41,副語言理解得分82.18。

文章情報

投資人進階

要點

  • StepAudio 2.5 Realtime是端到端實時語音LLM,支持自定義角色。
  • 採用百萬級角色數據增強和角色扮演專用RLHF,保持角色一致性。
  • 具備副語言理解能力,可感知語氣、語速、情緒等。
  • 在五項基準測試中均排名第一,API通過WebSocket提供。

為甚麼重要

這條新聞值得關注,因為StepAudio 2.5 Realtime是端到端實時語音LLM,支持自定義角色。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

StepFun,這家總部位於上海的AI實驗室,於2026年5月發佈了StepAudio 2.5 Realtime。這是一款端到端的實時語音大語言模型,具有完全可自定義的角色功能。與傳統的流水線系統不同,該模型將語音識別、推理和合成統一為單一系統,音頻輸入後直接輸出音頻。它支持中文和英語,通過WebSocket API(wss://api.stepfun.com/v1/realtime,模型字符串step-2.5-realtime)進行連接。

該模型的技術核心包括三大創新:第一,百萬級角色數據增強。StepFun從超過10,000個高質量原生角色出發,通過算法增強構建了百萬級角色特徵矩陣,並結合數百萬真實對話樣本進行訓練,旨在實現泛化能力,特別是在困難的長尾對話主題上表現穩定。第二,角色扮演專用RLHF對齊。為了解決對話AI中常見的“出角色”問題(即模型在對話中偏離其定義角色),StepFun團隊專門針對角色扮演場景進行了RLHF優化,利用人類偏好信號訓練獎勵模型,引導語言模型行為,確保角色一致性。第三,統一語音理解與生成。StepAudio 2.5 Realtime繼承了StepAudio 2.5的TTS能力,並通過強化學習深度融合語音理解與生成,實現了所謂的“全局場景級語調設置”和“句內細節雕琢”,模型可以設定響應的整體情緒基調,同時調整單個句子內的細微聲學細節。

副語言理解是該模型的一個關鍵技術差異化點。副語言指的是語音中的非語言聲學信息,如語調、語速、停頓、嘆息和笑聲。通過分析這些元素,模型可以感知用户的情緒和潛在意圖。例如,它可以從低沉的語調中識別疲勞,或從急促的語速中識別沮喪。這要求模型基於音頻特徵而非轉錄文本進行操作。StepAudio 2.5 Realtime在副語言理解基準測試中得分82.18,展示了其對語速、情緒、年齡等聲學特徵的感知能力。

在基準測試方面,StepFun研究團隊進行了全面的主觀和客觀評估,將StepAudio 2.5 Realtime與領先的實時語音模型進行了五個維度的比較。人類評估(主觀)得分為80.41,通用對話(客觀)86.36,汽車場景(客觀)84.80,口語問答(包含11項音頻理解任務,客觀)79.80,副語言理解(客觀)82.18。所有維度均排名第一。

關鍵要點:StepAudio 2.5 Realtime是上海StepFun發佈的端到端實時語音LLM;使用角色專用RLHF和百萬級數據增強來保持穩定的角色一致性;在2026年4月測試的五項基準中均排名第一;副語言理解是核心差異點;API通過WebSocket提供。更多詳情可查看模型卡和演示。