2026-06-04 22:42 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Show HN：7個人工智慧系統的黑盒API漏洞檢測

KushoAI釋出了一份基準測試報告，評估了7個AI系統在僅提供JSON模式和有效樣本載荷的情況下，檢測API中埋入的功能性漏洞的能力。KushoAI以83%的綜合得分排名第一，在複雜漏洞檢測上顯著領先。報告指出通用LLM和程式設計代理透過提示工程提升了廣度，但跨欄位業務邏輯仍是關鍵差距。

來源Hacker News AI作者: riyajoshi

KushoAI 釋出了一份針對 AI 驅動 API 測試工具的基準測試報告，評估了 7 個系統在嚴格黑盒條件下的漏洞檢測能力。每個系統僅獲得 JSON 模式和一條有效樣本載荷，無原始碼、文件或漏洞提示，需生成測試用例以觸發 API 中的 97 個植入漏洞（分為簡單、中等、複雜三級）。

報告比較了通用 LLM（GPT-5、Claude Sonnet 4.6、Gemini 2.5 Pro）、程式設計代理（Claude Code、Cursor、GitHub Copilot）以及專用 API 測試代理 KushoAI。結果顯示，所有系統在簡單漏洞上表現接近，但在複雜漏洞上差距顯著。KushoAI 檢測出 76% 的複雜漏洞，而最強的程式設計代理（Claude Code）為 53%，最強通用 LLM（Sonnet 4.6）為 34%。

綜合評分公式為：漏洞檢測率（70%）、覆蓋率（20%）和效率（10%）。KushoAI 以 0.83 分位列第一，第二名為 Claude Code（0.76），第三名為 Cursor（0.70）。覆蓋率方面領先系統幾乎飽和，但漏洞檢測率和穩定性構成主要差異。KushoAI 在所有 20 個場景中實現了 100% 的頂級欄位覆蓋率，執行間標準差最低（±0.03）。

報告強調，提示工程可提升引數覆蓋和欄位級負面測試，但無法系統性地產生跨欄位業務邏輯測試。對於 CI/CD 整合，輸出穩定性與峰值效能同等重要。KushoAI 的低方差使其更適合自動化流水線。效率指標上，KushoAI 得分較低（0.14），因其生成了更多測試用例，但報告認為增加探索以發現更多漏洞是值得的權衡。

該基準測試包含 20 個場景，涵蓋電子商務、支付、認證、使用者管理、排程、通知和搜尋/過濾等領域，共 97 個植入漏洞。測試方法強調黑盒約束，模擬團隊在僅有 API 模式時的實際挑戰。KushoAI 的專用工作流透過內部欄位分析和跨欄位候選構建，在複雜業務邏輯檢測上表現出色。