AI News HubLIVE
サイト内リライト3 分で読了

音声AIシステムは隠れた音声攻撃に対して脆弱

研究によると、人間の耳には聞こえない音声信号でAI音声システムを乗っ取ることが可能で、成功率は最大96%に達する。AudioHijackと呼ばれるこの攻撃は、大規模音声言語モデル(LALM)を標的とし、データ盗難や不正なツール使用などの悪意ある行動を引き起こす可能性がある。

ソースIEEE Spectrum AI著者: Edd Gent

AIを活用した音声ツールは、デジタルアシスタントからスマートスピーカー、カスタマーサービスボットに至るまで、日常生活にますます浸透しています。大規模音声言語モデル(LALM)の進歩により、音声コマンドでのデバイス制御、会議の自動文字起こし、背景で流れている曲の識別が可能になりました。しかし、これらのツールはオーディオに埋め込まれた人間の耳には知覚できない音によって「ハイジャック」され、ユーザーの知らないうちに不正なコマンドを実行させる可能性があります。

サンフランシスコで開催されるIEEEセキュリティ・プライバシーシンポジウムで発表される新しい研究によると、改変された音声クリップは平均79~96%の成功率でモデルの動作を操作できます。このクリップは、ユーザーが音声と共に提供する指示に関係なく機能するように設計されており、同じモデルに対して何度も再利用できます。研究者らは、MicrosoftやMistralの商用AI音声サービスを含む13の主要なオープンモデルに対してこの手法をテストし、機密性の高いウェブ検索の実行、攻撃者管理のソースからのファイルダウンロード、ユーザーデータを含むメールの送信などを誘発できることを示しました。

この研究は、「敵対的音声例」に関する長年の研究に基づいています。以前の研究は主に音声認識や音声分類などの一方向タスクを実行するモデルにおける誤った予測の誘発に焦点を当てていましたが、この新しい研究の特筆すべき点は、応答を生成し行動を起こすことができる生成モデルを標的にしていることです。AudioHijackと名付けられたこの手法は、LALM設計の重大なセキュリティ欠陥を悪用します。モデルが音声形式で指示を受け取ることができるため、操作されたクリップに悪意のある指示を隠して、さまざまな望ましくない動作を引き起こすことができます。

研究者らは、敵対的例を作成するための実績のあるアプローチを使用しました。デジタルオーディオファイルの波形を表す数値を、人間の耳には大きく変わらないように調整しつつ、モデルがデータを処理する際に意図しない動作を引き起こす方法です。この技術は、最適化アルゴリズムに依存しており、オーディオクリップを繰り返し微調整し、モデルの応答への影響を測定し、その信号を使用してさらに調整を行い、モデルが攻撃者の望む動作をするまで続けます。

生成モデルへの適用は大きな課題を伴います。従来のAIは、生のオーディオの小さな変化が応答に与える影響についてきめ細かなフィードバックを提供しますが、生成モデルはオーディオをチャンクに分割し、「トークン」と呼ばれる数値表現に割り当てます。この粗いプロセスにより、操作がモデルを目標の動作に近づけたかどうかの判断が難しくなります。そこで研究者らは、最適化アルゴリズムに必要なきめ細かなフィードバックを近似する方法を考案しました。これにはモデルへの完全なアクセスが必要であり、研究者は公開ウェイトを持つオープンモデルに限定されましたが、オープンモデルに対して開発された攻撃は、同じ基本アーキテクチャを共有するMicrosoftやMistralの商用モデルに転用可能であることがわかりました。

攻撃をユーザーの指示に関係なく機能させるため、研究者らは最適化の各ラウンドで異なるユーザー指示とオーディオクリップをペアにしました。また、モデルの注意機構を乗っ取る方法も発見しました。各ステップで敵対的音声とユーザーの指示のどれだけ注意を払っているかを測定し、これを最適化プロセスにフィードバックすることで、モデルの注意をより引きつけるサンプルを生成します。操作を人間の聞き手に検出されにくくするため、研究者らは以前に開発した、変化を自然な残響のように聞こえるようにする技術を使用しました。

チームは6種類の攻撃を実証しました。モデルに音声処理不可と主張させる、ユーザー要求を拒否する、誤った情報で応答する、悪意のあるリンクを挿入する、モデルのペルソナを変更する、不正なツール使用をトリガーするなどです。懸念すべきことに、この手法は一般的な防御に対して耐性を示しました。モデルに注意すべき悪意のある指示の例を提供しても攻撃成功率は7%しか低下せず、モデルに応答がユーザーの指示と一致するか反映させても攻撃の28%しか捕捉できませんでした。唯一効果的だった戦術は、モデルの内部注意機構を監視してAudioHijackの注意誘導を検出することでしたが、研究者らは防御に気づいた攻撃者が成功率のわずかな低下と引き換えに注意操作を弱められることを示しました。

マサチューセッツ大学アマースト校のコンピュータサイエンス助教授ユージン・バグダサリアン氏は、現実世界では圧縮やさまざまな後処理メカニズムが信号を劣化させる可能性があるため、この種の音声攻撃はさらなる課題に直面すると述べています。しかし、AIモデルへのマルチモーダル攻撃は依然として本質的に未解決の問題であると指摘しています。