2026-05-25 07:51 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

StepFun、StepAudio 2.5 Realtimeをリリース：エンドツーエンド音声モデル、ロールプレイ特化型RLHFとパラ言語理解を搭載

上海を拠点とするAIラボStepFunは、StepAudio 2.5 Realtimeをリリースした。これはエンドツーエンドのリアルタイム音声大規模言語モデルで、完全にカスタマイズ可能なペルソナ機能を備える。WebSocket APIで接続し、中国語と英語をサポート。2026年4月の5つのベンチマークすべてで首位を獲得、人間評価スコア80.41、パラ言語理解スコア82.18を記録。

ソースMarkTechPost著者: Michal Sutter

記事インテリジェンス

投資家上級

要点

StepAudio 2.5 Realtimeはエンドツーエンドのリアルタイム音声LLMで、カスタマイズ可能なペルソナを持つ。
百万規模のペルソナデータ拡張とロールプレイ特化型RLHFにより、一貫したキャラクターを維持。
パラ言語理解機能により、トーン、話速、感情などを認識可能。
5つのベンチマークすべてで首位、APIはWebSocket経由で提供。

重要な理由

このニュースが重要なのは、StepAudio 2.5 Realtimeはエンドツーエンドのリアルタイム音声LLMで、カスタマイズ可能なペルソナを持つためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

StepFunは、上海を拠点とするAIラボであり、2026年5月にStepAudio 2.5 Realtimeをリリースしました。これはエンドツーエンドのリアルタイム音声大規模言語モデルで、完全にカスタマイズ可能なペルソナ機能を備えています。従来のパイプライン型システムとは異なり、音声認識、推論、合成を単一のシステムに統合し、音声を入力すると直接音声が出力されます。このモデルは中国語と英語をサポートし、WebSocket API（wss://api.stepfun.com/v1/realtime、モデル文字列step-2.5-realtime）で接続します。

このモデルの技術的中核は3つの革新にあります。第一に、百万規模のペルソナデータ拡張です。StepFunは10,000以上の高品質なネイティブペルソナから出発し、アルゴリズムによる拡張を適用して百万規模のペルソナ特徴行列を構築し、数百万の実際の会話サンプルと組み合わせてトレーニングしました。これにより、特に難しいロングテールの会話トピックでの安定したパフォーマンスを目指しています。第二に、ロールプレイ特化型RLHFアライメントです。対話AIにおける既知の障害モードは「キャラクター逸脱」です——モデルが会話中に定義されたペルソナから外れてしまう現象です。StepFunチームは、ロールプレイシナリオでのペルソナ一貫性を保つために、特にRLHF（人間のフィードバックからの強化学習）最適化を実施しました。これは、人間の好み信号を用いて報酬モデルを訓練し、言語モデルの振る舞いをガイドする手法です。第三に、統一された音声理解と生成です。StepAudio 2.5 RealtimeはStepAudio 2.5のTTS機能を継承し、強化学習を通じて音声理解と生成を深く融合させ、いわゆる「グローバルシーンレベルのトーン設定」と「文内詳細彫刻」を実現しました。モデルは応答の全体的な感情レジスターを設定しつつ、個々の文内の微細な音響詳細を調整できます。

パラ言語理解は、このモデルの技術的な差別化要因です。パラ言語学とは、音声中の非言語的音響情報——トーン、話速、間、ため息、笑い声など——を指します。これらの要素を分析することで、モデルはユーザーの気分や潜在的な意図を認識できます。例えば、低いトーンから疲労を、速い話速からフラストレーションを識別できます。これらの信号を捉えるには、モデルがテキスト化されたものではなく、音声特徴に基づいて動作する必要があります。StepAudio 2.5 Realtimeはパラ言語理解ベンチマークで82.18を記録し、声の速さ、感情、年齢などの音響特徴を認識できることを示しています。

ベンチマーク結果については、StepFun研究チームは主観的および客観的評価の包括的なスイートを実施し、StepAudio 2.5 Realtimeを主要なリアルタイム音声モデルと5つの次元で比較しました。人間評価（主観）は80.41、一般対話（客観）86.36、自動車シナリオ（客観）84.80、音声QA（11の音声理解タスクを含む、客観）79.80、パラ言語理解（客観）82.18でした。すべての次元で首位を獲得しました。

主なポイント：StepAudio 2.5 Realtimeは上海に拠点を置くStepFunがリリースしたエンドツーエンドのリアルタイム音声LLMです。ペルソナ特化型RLHFと百万規模のデータ拡張を使用して、一貫したキャラクターを維持します。2026年4月にテストされた5つのベンチマークすべてで首位を獲得しました。パラ言語理解は中核的な技術差別化要因です。APIはWebSocket経由で利用可能です。詳細はモデルカードとデモをご覧ください。