2026-06-25 01:56 UTC+9サイト内リライト3 分で読了更新: 2026-06-25 02:06 UTC+9

Loka が Amazon Nova 2 Sonic を使って自然で低遅延な音声エージェントを構築した方法

Loka は Amazon Nova 2 Sonic を活用して、従来の音声アシスタントの遅延や不自然さを解決する会話型 AI エージェントを構築しました。ネイティブな音声-to-音声処理により、高精度、低コスト、自然な対話を実現しています。

ソースAWS Machine Learning Blog著者: Bojan Jakimovski

記事インテリジェンス

エンジニア中級

要点

従来の音声エージェントは 3 段階のパイプライン（音声認識→LLM→音声合成）により 3～5 秒の遅延が生じ、会話の流れを損ないコストが増大する。
Amazon Nova 2 Sonic はエンドツーエンドの音声処理を採用し、Big Bench Audio で 87.0 点、初回音声出力まで 1.39 秒、コストは約 0.27 ドル/時間。
プロンプトエンジニアリングにより総合スコアが 2.7 から 3.8 に向上し、怒っている顧客や忙しい親などのシナリオで高いパフォーマンスを発揮。
アーキテクチャは LiveKit、AWS Fargate、Amazon Bedrock などを活用し、スケーラブルで低遅延な本番環境を実現。

重要な理由

このニュースが重要なのは、従来の音声エージェントは 3 段階のパイプライン（音声認識→LLM→音声合成）により 3～5 秒の遅延が生じ、会話の流れを損ないコストが増大するためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

Loka は、Amazon Nova 2 Sonic を活用して、自然で低遅延な音声エージェントを構築し、顧客の音声対話体験を変革しました。従来の音声アシスタントは、応答がロボット的で遅いため、顧客が電話を切ってしまい、ブランドの評判を損ない、サポートコストを増大させるという共通の悩みがありました。Loka の AWS ベースのソリューションは、ネイティブな音声-to-音声モデルにより、Big Bench Audio で 87.0 の高い音声推論精度を達成し、従来の音声 AI パイプラインよりも大幅に低いコストと高速な応答時間を実現しています。

従来の音声アシスタントの問題は、その 3 段階のプロセスにあります。まず、音声をテキストに変換（音声認識）、次に大規模言語モデル（LLM）でテキスト処理、最後にテキスト応答を音声に変換（音声合成）します。このパイプラインは各ステップで遅延が累積し、応答までに 3～5 秒の間隔が生じます。この遅延が自然な会話感を損ない、割り込みや訂正をぎこちなくさせます。例えば、自動車ディーラーでの実際のシナリオを考えてみてください。顧客が「広告に出ていた SUV を探しているのですが、ハイブリッド版ではなくて、来店は午後 5 時以降しか無理です」と電話した場合、アシスタントは複数の情報を同時に解析する必要があります。従来のシステムは、音声からテキストへの変換でトーンやためらい、緊急性などの重要な情報が失われるため、この複雑さに対応できません。ディーラーの状況では、顧客は即座に役立つ応答を期待します。5 秒の間は永遠に感じられ、誤解があれば遅延がさらに悪化します。

技術的な遅延に加え、経済的な問題もあります。数千の拠点にサービスを提供するには厳格なコスト管理が必要です。従来のリアルタイム音声システムは、特に連続オーディオストリームの処理において、大規模になるとコストが高くなりすぎます。こうした悪い体験と高コストの組み合わせが、音声 AI の普及を制限してきました。企業はより良いソリューションを必要としています。

最近の AI の進歩により、根本的に異なるアプローチが可能になりました。開発者は、オーディオストリームを直接音声-to-音声モデルに送信でき、理解、推論、生成を統合システムとして処理します。エンドツーエンドで音声を処理することで、これらのモデルは従来のテキストのみのパイプラインでは見逃されるトーン、感情、微妙な手がかりを捉えます。

このアプローチを検証するため、Big Bench Audio ベンチマークを使用しました。Amazon Nova 2 Sonic は音声推論スコア 87.0 を達成し、Gemini 2.5 Flash Native Audio（Live API）の 71.0 や GPT Realtime の 83.0 を上回りました。これにより、ネイティブオーディオ処理が速度と引き換えに知能を犠牲にしないことが確認されました。

推論能力だけでは本番システムには不十分です。レイテンシーが会話を自然にするかロボット的にするかを決定します。Nova 2 Sonic の初回音声出力時間（TTFA）は 1.39 秒で、ユーザーが割り込んでも自然に応答します。

コスト効率も向上しました。Nova 2 Sonic は入力音声 1 時間あたり約 0.27 ドル（公開時点の価格に基づく）で、同等のリアルタイムモデルや従来手法よりも低コストです。

品質を測定するため、LLM を審査員とする自動評価パイプラインを構築しました。各会話を 5 つの次元（応答の適切性、意図理解、完全性、会話の自然さ、エラー回復）で 1～5 点評価しました。Amazon Nova Sonic と Nova 2 Sonic の比較では、応答の適切性が 2.5 から 2.9 に、意図理解が 2.9 から 3.0 に、完全性が 1.8 から 2.5 に、会話の自然さが 2.5 から 2.8 に向上し、総合スコアは 2.4 から 2.7 に上昇しました。

エンジニアリング面では、プロンプトをコードとして扱い、反復的に最適化しました。ベースラインの総合スコア 2.7 から、最初のプロンプト改良で 3.1、2 回目の改良で 3.8 に向上しました。改良点には、ハードコードされたディーラー詳細のテンプレート変数化、箇条書きと見出しによる構造化、具体的な動作例の追加、応答前チェックリストの導入が含まれます。

実際のテストでは、怒っている顧客、忙しい親、おしゃべりな顧客、混乱している顧客、高齢の顧客などのシナリオを評価しました。忙しい親シナリオは全次元で 5.0 点、怒っている顧客と混乱している顧客は 4.5 点でした。おしゃべりな顧客と高齢の顧客はいずれも 3.0 点で、長く散漫な入力への対応に改善の余地を示しましたが、平均エッジケーススコア 4.0 は強力な実戦準備態勢を示しています。

本番アーキテクチャは、LiveKit をトランスポート層、AWS Fargate をコンピュート層として採用し、LiveKit エージェントを Amazon ECS にコンテナ化して独立したスケーリングを実現しました。Amazon RDS は永続ストレージ、Amazon ElastiCache はセッション調整、Amazon Bedrock はモデルアクセスを提供します。ブラウザクライアントは WebRTC、電話は SIP トランク経由で接続されます。可観測性は AWS 上にセルフホストされた Langfuse が提供し、すべてのエージェントの判断とツール呼び出しをトレースします。

この取り組みは、テキストベースのチャットボットからリアルタイム音声エージェントへの移行が単なるインターフェースの変更ではなく、根本的に異なるインフラストラクチャと思考を必要とすることを示しています。Nova 2 Sonic は、高い推論能力、低レイテンシー、経済性という 3 つの重要なエンジニアリング要件を同時に満たしており、会話型 AI の新たな基準を打ち立てました。