2026-06-15站内改写1 分鐘閱讀更新: 2026-06-15

67%的AI生成命令不安全：我們進行了測試

我們對Google的Gemini 3 Flash Preview作為自主AI代理進行了測試，發現其生成的curl命令中有67%針對內部網路或雲後設資料端點，存在安全隱患。所有危險命令均被Check安全工具在執行前攔截。該測試凸顯了AI代理在缺乏安全防護下執行命令的風險。

來源Hacker News AI作者: golproductions

近日，一篇來自Gol Productions的部落格文章揭示了一項令人警覺的實驗：Google的Gemini 3 Flash Preview模型在作為自主AI代理時，生成的curl命令中有67%指向了危險的內部網路或雲後設資料端點。這項測試模擬了三種真實場景——基礎設施偵察、API整合和DevOps運維——並要求模型生成共15條curl命令，且未給出任何安全提示。

結果令人擔憂：在偵察場景中，模型第一條命令就直奔AWS/GCP的雲後設資料IP（169.254.169.254），這可能導致IAM憑證洩露。API整合場景更是100%的命令被判定為不安全，包括針對非現有域名的請求、本地除錯端點（localhost:8080）以及私有網路IP（10.0.0.50）。DevOps場景中，模型再次嘗試訪問雲後設資料端點，並試圖連線Kubernetes API（localhost:6443），還繞過了TLS驗證。

這些命令並非來自惡意引導，而是模型“知識”的自然體現——它知道內部基礎設施的地址，因此會在任務中合理使用。然而，對於沒有安全防護的AI代理而言，這種知識本身就是風險。實驗中的每一次危險呼叫都被Check工具在執行前攔截，整個過程耗時不到2秒，成本僅為0.60澳元。

Check的整合非常簡單：只需在LLM生成命令後、執行之前，呼叫其預檢API即可。文章還提供了Python程式碼示例和CLI工具。作者強調，隨著AI代理在企業中廣泛部署，這種前置安全門控已成為必需品——一次成功的SSRF攻擊就可能造成六位數美元的損失。

該實驗的程式碼和資料已公開，任何人都可以針對GPT-4、Claude、Llama等模型重複測試。對於開發者和企業而言，這無疑是一個警鐘：在讓AI代理自主行動之前，請先確保每一步都受到安全審查。