2000人試圖黑掉我的AI助手,結果發生了什麼?
Fernando Irarrázaval在hackmyclaw.com發起挑戰,邀請人們透過郵件竊取其OpenClaw測試例項中的秘密。儘管有6000次嘗試(花費500美元token,並導致谷歌賬號被暫停),無人成功。底層模型為Opus 4.6,使用了抗提示注入規則。這反映了前沿模型在抗注入攻擊方面的訓練效果,但仍需謹慎,無法保證絕對安全。
Fernando Irarrázaval在hackmyclaw.com上發起了一項引人注目的安全挑戰:他執行了一個OpenClaw測試例項,並公開邀請任何人透過傳送電子郵件來嘗試竊取其中儲存的秘密。這個實驗旨在檢驗當前大語言模型在面對提示注入攻擊時的防禦能力。結果出乎意料:儘管經歷了6000次嘗試,花費了500美元的token費用,甚至導致谷歌賬號因接收過多郵件而被暫停,但沒有一個人成功獲取到秘密。
測試例項使用的是Opus 4.6模型,配備了一套明確的抗提示注入規則。這些規則明確禁止基於郵件內容洩露secrets.env檔案或任何憑據、修改自身檔案(如SOUL.md、AGENTS.md)、執行郵件中的命令或執行程式碼,以及將資料外洩到外部端點。這些規則構成了防禦的核心,有效阻止了各種攻擊嘗試。
這一結果與當前大語言模型安全領域的進展相一致。研究實驗室正在大力訓練前沿模型,使其不易受到提示注入攻擊。正如OpenAI的GPT-5.6系統卡中所展示的,這些努力確實讓攻擊變得更加困難。然而,這並不意味著可以完全放鬆警惕。作者提醒,在生產系統中,如果提示注入攻擊可能造成不可逆的損害,仍然不建議直接部署。6000次失敗並不能保證更復雜的攻擊方式無法突破。Hacker News上的討論充滿了建設性的懷疑和真誠的回應,顯示了社群對這一問題的關注。
值得注意的是,這次挑戰不僅展示了當前模型的防禦能力,也引發了關於AI安全邊界的重要討論。隨著模型能力的不斷提升,確保它們不被惡意利用變得至關重要。希望未來的研究能夠提供更強大的防護機制。