2026-06-27 02:33 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-27 03:10 UTC+8

2000人試圖黑掉我的AI助手，結果發生了什麼？

Fernando Irarrázaval在hackmyclaw.com發起挑戰，邀請人們通過郵件竊取其OpenClaw測試實例中的秘密。儘管有6000次嘗試（花費500美元token，並導致谷歌賬號被暫停），無人成功。底層模型為Opus 4.6，使用了抗提示注入規則。這反映了前沿模型在抗注入攻擊方面的訓練效果，但仍需謹慎，無法保證絕對安全。

來源Simon Willison's Weblog

Fernando Irarrázaval在hackmyclaw.com上發起了一項引人注目的安全挑戰：他運行了一個OpenClaw測試實例，並公開邀請任何人通過發送電子郵件來嘗試竊取其中存儲的秘密。這個實驗旨在檢驗當前大語言模型在面對提示注入攻擊時的防禦能力。結果出乎意料：儘管經歷了6000次嘗試，花費了500美元的token費用，甚至導致谷歌賬號因接收過多郵件而被暫停，但沒有一個人成功獲取到秘密。

測試實例使用的是Opus 4.6模型，配備了一套明確的抗提示注入規則。這些規則明確禁止基於郵件內容泄露secrets.env文件或任何憑據、修改自身文件（如SOUL.md、AGENTS.md）、執行郵件中的命令或運行代碼，以及將數據外泄到外部端點。這些規則構成了防禦的核心，有效阻止了各種攻擊嘗試。

這一結果與當前大語言模型安全領域的進展相一致。研究實驗室正在大力訓練前沿模型，使其不易受到提示注入攻擊。正如OpenAI的GPT-5.6系統卡中所展示的，這些努力確實讓攻擊變得更加困難。然而，這並不意味着可以完全放鬆警惕。作者提醒，在生產系統中，如果提示注入攻擊可能造成不可逆的損害，仍然不建議直接部署。6000次失敗並不能保證更復雜的攻擊方式無法突破。Hacker News上的討論充滿了建設性的懷疑和真誠的回應，顯示了社區對這一問題的關注。

值得注意的是，這次挑戰不僅展示了當前模型的防禦能力，也引發了關於AI安全邊界的重要討論。隨着模型能力的不斷提升，確保它們不被惡意利用變得至關重要。希望未來的研究能夠提供更強大的防護機制。