2026-06-03 00:31 UTC+9サイト内リライト8 分で読了更新: 2026-06-30 22:03 UTC+9

リアルタイム音声ネイティブAIによる音声チャネルのセキュリティ確保

コンタクトセンターのライブ音声対話は、詐欺、ディープフェイク、エージェント離職の重大な盲点となっています。本記事では、Modulate社とThales Groupの専門家による3つの洞察を解説します：通話中の詐欺検出、高リスク意思決定のための音声ネイティブAIアーキテクチャの導入、セキュリティ・運用・CX部門にまたがるワークフローレベルのガバナンス確立。

ソースEmerj AI Research著者: Marilie Fouche

記事インテリジェンス

エンジニア中級

要点

2025年のAI詐欺による確認損失は約8億9300万ドルに上り、報告された攻撃の一部に過ぎない。
文字起こしベースのシステムでは音響的手がかりが失われる。音声ネイティブAIモデルはトーン、ためらい、感情の不一致を捉える。
アイデンティティ重視の意思決定には、低レイテンシとマルチシグナル融合を備えたアンサンブルアーキテクチャが必要。
規制当局や保険会社に対応するには、部門横断的なガバナンスと監査対応可能な証拠が不可欠。

重要な理由

このニュースが重要なのは、2025年のAI詐欺による確認損失は約8億9300万ドルに上り、報告された攻撃の一部に過ぎないためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

本記事はModulate社のスポンサー提供であり、Emerjのスポンサーコンテンツガイドラインに従って作成・編集・公開されています。

コンタクトセンターにおけるライブ音声対話は深刻な運用上の盲点となっており、詐欺、アイデンティティリスク、エージェントの離職がリアルタイムで発生しているにもかかわらず、エンタープライズシステムからの可視性はほとんどありません。

金融サービス向けコンタクトセンターは、二方向から同時に資金流出に見舞われていますが、ほとんどの企業は片方しか測定していません。FBIのインターネット犯罪苦情センターによると、音声クローンやディープフェイクなりすましを含むAI主導の詐欺による確認損失は2025年に約8億9300万ドルに達しました。これはFBIが正式に犯罪カテゴリーとして追跡を始めた初年度であり、被害者が実際に報告した攻撃のごく一部に過ぎません。

運用面でも影響は深刻です。米国人材マネジメント協会によると、従業員1人の採用・雇用にかかる平均コストは約4,700ドルであり、トレーニングや立ち上げ期間、生産性低下は含まれていません。コンタクトセンターでは、品質保証・トレーニング接続による年間エージェント離職率のベンチマークが30～45%であり、このコストは毎年、全席で繰り返し発生します。業界平均の離職率で500席のセンターが運営されている場合、それは人事問題ではなく、資本問題です。

根本的な問題は、コンタクトセンターがリアルタイムの音声ベース運用を行っているにもかかわらず、通話で実際に何が起こっているかに関するリアルタイムインテリジェンスを持たないことです。合成音声が本人確認を回避しているのか、虐待的な発信者が訓練されたエージェントを退職に追い込んでいるのか、いずれも測定可能であり、避けられないものではありません。

Emerjは最近、音声チャネルをリアルタイムリスクから保護するための3部構成シリーズを主催しました。ゲストはModulateのCEO兼共同創業者Mike Pappas氏、同社の市場・行動調査ディレクターKen Morino氏、Thales Groupのデータ・AIグローバルCTO Jon-Rav Shende氏です。彼らは、企業が通話中に詐欺を検出し、高リスク意思決定を支援する音声インテリジェンスアーキテクチャを展開し、規制当局や保険会社に対応できるワークフローレベルのガバナンスを構築する方法を検討しました。

本記事では、音声チャネルが詐欺と高リスク意思決定の最前線となる中で、企業がセキュリティを確保するための3つの重要な洞察を考察します。

音声チャネルをリアルタイムリスク表面として捉える：通話中に詐欺や操作を検出することで、財務損失、規制リスク、エージェント離職の拡大を防ぎます。

高リスク意思決定のための専用音声インテリジェンスアーキテクチャ：ライブオーディオ用に構築されたモデルは、認証、アカウント変更、支払い承認に必要な精度と速度を提供し、汎用AIでは対応できません。

ワークフローレベルのガバナンスと音声AI成果の共有所有権：明確なエスカレーションパスと監査対応可能な証拠により、セキュリティ、運用、CX部門が規制当局や保険会社から信頼される形でリスクシグナルに対処できます。

音声チャネルをリアルタイムリスク表面として捉える

エピソード：なぜアンサンブルアーキテクチャがリアルタイム音声リスクに勝つのか – ModulateのMike Pappas氏

ゲスト： Mike Pappas氏、Modulate CEO兼共同創業者

専門分野： AI、会話型AI、AI安全性・信頼、システムアーキテクチャ

略歴： Mike Pappas氏はModulateを共同創業し、フォーチュン500企業や大手ゲームスタジオがハラスメント、詐欺、ユーザー安全性に大規模に対処するためのAI搭載会話分析の開発・展開を主導。以前はLolaやBridgewater Associatesで機械学習、クラウドシステム、ソフトウェアアーキテクチャの技術・インフラ職を歴任。家族オンライン安全協会の理事も務め、MITで物理学・応用数学の学位を取得。

Mike Pappas氏は、組織が音声チャネルを理解する方法の変化を説明します。かつては日常的なサービス対話として扱われていたものが、今では詐欺、なりすまし、操作がリアルタイムで発生する場となり、その速度は既存の制御手段の検出能力を超えています。

彼の見解では、運用上のギャップは検出能力ではなくタイミングにあります。通話中に何が起こるかと、システムが後から観察できることの間のギャップです。

Pappas氏はこのギャップを直接説明します：

> 「最大の被害はログには現れません。通話が進行中に発生します。誰かがトランスクリプトを確認する頃には、攻撃者はすでに成功しています。本当のリスクは、リアルタイムで起こっていることと組織が実際に見えることの間のギャップです。」 > — Mike Pappas氏、Modulate CEO兼共同創業者

詐欺の試みはますます緊急性、感情的圧力、なりすましに依存しており、これらはライブ対話自体に現れます。人間はポリシーよりも感情に反応するため、これらのシグナルは従来の制御が介入する前に意思決定に影響を与えます。

Pappas氏の立場は、検出はこれらの行動的手がかりが発生した瞬間に行われなければならないというものです。そのためには、トランスクリプト自体ではなくオーディオストリームを解釈するように構築されたモデルが必要です。

エージェントは、特に検証手順を回避するようにスクリプト化された場合、敵対的な会話パターンを認識する訓練を受けていません。Pappas氏は、エージェントが自分でこれらのシグナルを識別することを期待するのは非現実的であり、解決策はリアルタイムでリスク指標を可視化し、高圧的な瞬間に本能に頼らないようにすることだと主張します。

彼のフレームワークでは、AIの役割は、時間的圧力や説得力のあるなりすましに直面しても、それらの指標を一貫して表面化することです。

同じエピソードで、Ken Morino氏は、行動的・感情的手がかりはテキストに還元されると失われ、操作の検出におけるトランスクリプトベースシステムの有用性が制限されると指摘します。何かがおかしいことを示すシグナル（ためらい、トーンの不一致、会話の誘導）は、対話が文字に平坦化されると失われます。

Morino氏は、リアルタイムオーディオ用に構築されたAIシステムはこれらのシグナルを回復し、エージェントが生のオーディオパターンを自ら解釈する必要なく、既存のワークフローに適合する形で提示できると考えています。

認証、アカウント変更、支払い承認などの高リスクワークフローは、迅速な意思決定が求められるため脆弱であり、攻撃者はこの時間的圧力を利用します。

Jon-Rav Shende氏は、ディープフェイク詐欺はしばしばワークフローのギャップを悪用して成功し、ほとんどのセキュリティチームは実際に侵害が発生するライブ対話への可視性が限られていると補足します。彼の強調点は、AIを使用して通話中のアイデンティティリスクに関連するシグナルを表面化し、セキュリティチームが事後ではなく、対話が進行中に可視性を得られるようにすることです。

3つの対話全体で、いくつかのソリューションパターンが浮かび上がります：

通話中にリスクシグナルを表面化し、エージェントに直感や記憶ではなくリアルタイムのコンテキストを提供します。
音声ネイティブモデルを使用して、トーン、ためらい、感情の不一致など、トランスクリプションでは生き残れないシグナルを捕捉します。
攻撃者が速度と曖昧さを悪用するアイデンティティおよび承認プロセスにおけるワークフローレベルの脆弱性を露呈します。
リスク指標が現れたときにエージェントに構造化されたプロンプトや手がかりを提供し、高圧的な対話中の認知負荷を軽減します。
セキュリティの可視性をライブ対話に統合し、チームが事後に侵害を発見しないようにします。

高リスク意思決定のための専用音声インテリジェンスアーキテクチャ

エピソード：FinServとCXのためのリアルタイム音声インテリジェンスの運用化 – ModulateのKen Morino氏

ゲスト： Ken Morino氏、Modulate市場・行動調査ディレクター

専門分野： 製品管理、行動調査、ユーザーエクスペリエンスデザイン、エンタープライズソフトウェア・統合

略歴： Ken Morino氏はModulateで製品・市場調査イニシアチブを主導し、AI駆動の会話技術とユーザー重視の製品戦略を形成。以前はLiveShopper Sassieで約10年間、エンタープライズ製品管理、API統合、大規模クライアント実装を主導。初期にはDemarc Securityで製品、技術営業、セキュリティソリューションのリーダーシップ職を歴任。カリフォルニア大学サンタバーバラ校でコンピュータサイエンスの学士号と経済学の修士号を取得。

Ken Morino氏は、ほとんどの組織がアイデンティティのために設計されたことのないシステムでアイデンティティクリティカルな問題を解決しようとしていると主張します。

市場の支配的なツール（ASRパイプライン、トランスクリプト分析、汎用LLM）は、要約、感情スコアリング、コンプライアンスレビューのために構築されました。これらはテキストベースであり、精度要件が柔軟であると想定しています。認証やアカウント変更のワークフローでは、その想定は即座に崩れます。

技術的制約は交渉の余地がありません：

アイデンティティワークフローには固定のレイテンシ予算があります。1.5秒の応答時間のモデルは、300ミリ秒未満でアクションを承認または拒否するシステムでは使用できません。
トランスクリプトベースのシステムは、ピッチ、音色、マイクロポーズ、高調波構造など、アイデンティティシステムが依存する音響的特徴を破棄します。
汎用LLMはアイデンティティグレードの精度閾値を満たせません。95%の精度のモデルは、残りの5%が詐欺である場合、壊滅的です。
単一モデルアプローチは失敗します。なぜなら、単一のシグナル（声紋、言い回し、メタデータ）だけでは合成音声を検出するのに十分信頼できないからです。
CX分析システムはマルチシグナル融合を欠いており、音響、行動、コンテキストの指標を防御可能なアイデンティティ判断に統合する必要があります。

Morino氏は核心的な制限を要約します：

> 「会話をテキストに平坦化すると、ためらい、トーン、感情の不一致など、何かがおかしいことを示すすべてのものが失われます。」 > — Ken Morino氏、Modulate市場・行動調査ディレクター

Mike Pappas氏は、アイデンティティクリティカルな意思決定にはアンサンブルアーキテクチャが必要だと補足します。複数の専門モデルがオーディオ信号の異なる部分を処理し、単一のリスク評価に収束します。

Jon-Rav Shende氏は、保険会社や規制当局が、各シグナルがどのように判断に貢献したかを示す監査対応可能な証拠をますます期待していると指摘します。彼らは共同で、認証、アカウント変更、支払い承認には、転用された分析スタックではなく、目的に特化したアーキテクチャが必要であると考えています。

ワークフローレベルのガバナンスと音声AI成果の共有所有権

エピソード：なぜディープフェイク詐欺は技術ではなくワークフローを打ち負かすのか – Thales GroupのJon-Rav Shende氏

ゲスト： Jon-Rav Shende氏、Thales Groupデータ・AIグローバルCTO

専門分野： AIセキュリティ、クラウド・エンタープライズ変革、サイバーセキュリティ・リスク管理、データガバナンス・信頼できるAI

略歴： Jon-Rav Shende氏は、Thales、Sutherland、ForenSec GlobalでCTO、CISO、エグゼクティブアドバイザリーを含むシニアテクノロジーおよびセキュリティリーダーシップ職を歴任。フォーチュン500企業や数十億ドル規模の変革プログラムを含むグローバル企業向けの大規模クラウド、セキュリティ、AI近代化イニシアチブを主導。Ernst & YoungやCognizantなどの主要テクノロジー・コンサルティングエコシステム、およびAWS、Azure、Googleなどのクラウドプラットフォームでの経験も豊富。InfraGardに積極的に関与し、AIガバナンス、サイバーレジリエンス、信頼できるAI導入に広範な経験を持つ。

Jon-Rav Shende氏の対話全体への貢献は、リスクを検出する技術的能力は問題の半分に過ぎないということです。もう半分は組織的なものです。システムがアイデンティティ関連のシグナルを表面化できるようになれば、企業は誰が対応を所有するか、証拠をどのように捕捉するか、意思決定が規制当局、監査人、保険会社に対してどのように防御可能になるかを決定しなければなりません。

彼の見解では、失敗モードは単に技術能力の欠如ではなく、ワークフローによる脆弱性です。攻撃者は承認プロセスにおける速度と曖昧さを利用し、セキュリティチームが気づく前に攻撃を完了します。

解決策には、セキュリティ、運用、CX部門を横断する共有所有権が必要であり、各部門が全体的な対応において明確な役割を果たします。Shende氏は、AIを使用してリアルタイムでリスクシグナルを表面化すると同時に、監査証跡を捕捉し、企業が後からすべてのアクションを証明できるようにすることを強調します。

彼は次のように締めくくります：「ディープフェイク詐欺はあなたのAIの弱点を利用するのではなく、ワークフローの弱点を利用します。部門横断的なリスク可視性と共有所有権がなければ、運任せで運用していることになります。」

これらの3つの対話を通じて、企業は音声チャネルを保護するために以下のステップを踏むことができます：

現在の音声対話の可視性を評価する — 通話中または事後にリスクを検出しているか？
トランスクリプトで失われるシグナルを捕捉できる音声ネイティブAIモデルに投資する。
アイデンティティクリティカルな意思決定のために、音響、行動、コンテキストシグナルを組み合わせたアンサンブルアーキテクチャを導入する。
セキュリティ、運用、CX部門を横断するワークフローガバナンスを確立し、明確なエスカレーションパスと監査証拠を確保する。
エージェントにリアルタイムのリスク指標と構造化されたプロンプトを提供し、認知負荷を軽減する。

AI主導の詐欺が増加し続ける中、音声チャネルをリアルタイムで保護することは選択肢ではなく、エンタープライズリスク管理の中核要件です。