AI News HubLIVE
站内改写2 分钟阅读

语音AI系统易受隐藏音频攻击

研究显示,通过人耳无法察觉的音频信号可以劫持AI语音系统,成功率高达96%。这种名为AudioHijack的攻击针对大型音频语言模型(LALM),可引发多种恶意行为,包括数据窃取和未经授权的工具使用。

来源IEEE Spectrum AI作者: Edd Gent

人工智能驱动的语音和音频工具正日益融入日常生活,从数字助手到智能音箱和客服机器人。大型音频语言模型(LALM)的进步使得通过语音命令控制设备、自动转录会议或识别背景音乐成为可能。然而,这些工具可以通过嵌入音频中的人耳无法察觉的声音被“劫持”,迫使用户在不知情的情况下执行未经授权的命令。

即将在旧金山举行的IEEE安全与隐私研讨会上展示的新研究表明,经过修改的音频片段可以以平均79%至96%的成功率操纵模型行为。这些片段的设计使得无论用户提供什么指令,它们都能工作,意味着它们可以多次重复使用来攻击同一模型。作者测试了13个领先的开放模型,包括微软和Mistral的商业AI语音服务,并成功诱导模型执行敏感网络搜索、下载攻击者控制的文件以及发送包含用户数据的电子邮件。

该研究建立在多年“对抗性音频示例”工作的基础上。以往的工作主要关注如何使模型产生错误预测,而这项新工作的独特之处在于它针对能够生成响应和采取行动的生成模型。其技术名为AudioHijack,利用了LALM设计中的一个关键安全漏洞:由于这些模型可以接收音频格式的指令,恶意指令可以隐藏在操纵的片段中,从而引发各种不良行为。

研究人员使用了一种久经考验的方法来创建对抗性示例:调整数字音频文件中表示波形的数值,使其在人类听来没有显著变化,但会导致模型在处理数据时产生意外行为。该技术依赖于一个优化算法,反复调整音频片段,测量对模型响应的影响,然后利用这一信号进一步调整音频,直到模型做出攻击者想要的行为。

应用这一技术到生成模型面临重大挑战。旧式AI提供细粒度的反馈,而生成模型将音频分解为片段并分配给称为“token”的数值表示,这种较粗略的过程使得优化算法难以判断操作是否使模型更接近目标行为。为此,Chen及其同事设计了一种方法来近似所需的细粒度反馈。这需要完全访问模型,因此研究人员只能使用公开权重的开放模型。不过,他们发现针对开放模型开发的攻击可以转移到具有相同底层架构的微软和Mistral商业模型上。

为了使攻击在用户提供不同指令时都能成功,研究人员在每次优化迭代中将音频片段与不同的用户指令配对。他们还找到了接管模型注意力机制的方法,引入了一个衡量模型在每一步中对对抗性音频与用户指令关注度的指标,并将其反馈到优化过程中,以产生更吸引模型注意力的样本。为了让人类更难检测到操纵,研究人员使用了一种使音频变化听起来像自然混响的技术。

团队展示了六类攻击:使模型声称无法处理音频、拒绝用户请求、回应虚假信息、插入恶意链接、改变模型角色以及触发未经授权的工具使用。令人担忧的是,这种方法对常见防御具有抵抗力。向模型提供恶意指令示例仅将攻击成功率降低了7%,而要求模型反思其响应是否匹配用户指令仅捕获了28%的攻击。唯一有效的策略是监控模型的内部注意力机制以检测AudioHijack的注意力引导企图,但攻击者可以调整注意力操纵以降低成功率。

马萨诸塞大学阿默斯特分校的助理教授Eugene Bagdasarian表示,在现实世界中,此类音频攻击还将面临压缩和各种后处理机制等额外挑战。但他指出,多模态攻击对AI模型来说仍然是一个基本未解决的问题。