AI News HubLIVE
站內改寫2 分鐘閱讀

語音AI系統易受隱藏音頻攻擊

研究顯示,通過人耳無法察覺的音頻信號可以劫持AI語音系統,成功率高達96%。這種名為AudioHijack的攻擊針對大型音頻語言模型(LALM),可引發多種惡意行為,包括數據竊取和未經授權的工具使用。

來源IEEE Spectrum AI作者: Edd Gent

人工智能驅動的語音和音頻工具正日益融入日常生活,從數字助手到智能音箱和客服機器人。大型音頻語言模型(LALM)的進步使得通過語音命令控制設備、自動轉錄會議或識別背景音樂成為可能。然而,這些工具可以通過嵌入音頻中的人耳無法察覺的聲音被“劫持”,迫使用户在不知情的情況下執行未經授權的命令。

即將在舊金山舉行的IEEE安全與隱私研討會上展示的新研究表明,經過修改的音頻片段可以以平均79%至96%的成功率操縱模型行為。這些片段的設計使得無論用户提供什麼指令,它們都能工作,意味着它們可以多次重複使用來攻擊同一模型。作者測試了13個領先的開放模型,包括微軟和Mistral的商業AI語音服務,併成功誘導模型執行敏感網絡搜索、下載攻擊者控制的文件以及發送包含用户數據的電子郵件。

該研究建立在多年“對抗性音頻示例”工作的基礎上。以往的工作主要關注如何使模型產生錯誤預測,而這項新工作的獨特之處在於它針對能夠生成響應和採取行動的生成模型。其技術名為AudioHijack,利用了LALM設計中的一個關鍵安全漏洞:由於這些模型可以接收音頻格式的指令,惡意指令可以隱藏在操縱的片段中,從而引發各種不良行為。

研究人員使用了一種久經考驗的方法來創建對抗性示例:調整數字音頻文件中表示波形的數值,使其在人類聽來沒有顯著變化,但會導致模型在處理數據時產生意外行為。該技術依賴於一個優化算法,反覆調整音頻片段,測量對模型響應的影響,然後利用這一信號進一步調整音頻,直到模型做出攻擊者想要的行為。

應用這一技術到生成模型面臨重大挑戰。舊式AI提供細粒度的反饋,而生成模型將音頻分解為片段並分配給稱為“token”的數值表示,這種較粗略的過程使得優化算法難以判斷操作是否使模型更接近目標行為。為此,Chen及其同事設計了一種方法來近似所需的細粒度反饋。這需要完全訪問模型,因此研究人員只能使用公開權重的開放模型。不過,他們發現針對開放模型開發的攻擊可以轉移到具有相同底層架構的微軟和Mistral商業模型上。

為了使攻擊在用户提供不同指令時都能成功,研究人員在每次優化迭代中將音頻片段與不同的用户指令配對。他們還找到了接管模型注意力機制的方法,引入了一個衡量模型在每一步中對對抗性音頻與用户指令關注度的指標,並將其反饋到優化過程中,以產生更吸引模型注意力的樣本。為了讓人類更難檢測到操縱,研究人員使用了一種使音頻變化聽起來像自然混響的技術。

團隊展示了六類攻擊:使模型聲稱無法處理音頻、拒絕用户請求、回應虛假信息、插入惡意鏈接、改變模型角色以及觸發未經授權的工具使用。令人擔憂的是,這種方法對常見防禦具有抵抗力。向模型提供惡意指令示例僅將攻擊成功率降低了7%,而要求模型反思其響應是否匹配用户指令僅捕獲了28%的攻擊。唯一有效的策略是監控模型的內部注意力機制以檢測AudioHijack的注意力引導企圖,但攻擊者可以調整注意力操縱以降低成功率。

馬薩諸塞大學阿默斯特分校的助理教授Eugene Bagdasarian表示,在現實世界中,此類音頻攻擊還將面臨壓縮和各種後處理機制等額外挑戰。但他指出,多模態攻擊對AI模型來説仍然是一個基本未解決的問題。