Show HN:7個人工智能系統的黑盒API漏洞檢測
KushoAI發佈了一份基準測試報告,評估了7個AI系統在僅提供JSON模式和有效樣本載荷的情況下,檢測API中埋入的功能性漏洞的能力。KushoAI以83%的綜合得分排名第一,在複雜漏洞檢測上顯著領先。報告指出通用LLM和編程代理通過提示工程提升了廣度,但跨字段業務邏輯仍是關鍵差距。
KushoAI 發佈了一份針對 AI 驅動 API 測試工具的基準測試報告,評估了 7 個系統在嚴格黑盒條件下的漏洞檢測能力。每個系統僅獲得 JSON 模式和一條有效樣本載荷,無源代碼、文檔或漏洞提示,需生成測試用例以觸發 API 中的 97 個植入漏洞(分為簡單、中等、複雜三級)。
報告比較了通用 LLM(GPT-5、Claude Sonnet 4.6、Gemini 2.5 Pro)、編程代理(Claude Code、Cursor、GitHub Copilot)以及專用 API 測試代理 KushoAI。結果顯示,所有系統在簡單漏洞上表現接近,但在複雜漏洞上差距顯著。KushoAI 檢測出 76% 的複雜漏洞,而最強的編程代理(Claude Code)為 53%,最強通用 LLM(Sonnet 4.6)為 34%。
綜合評分公式為:漏洞檢測率(70%)、覆蓋率(20%)和效率(10%)。KushoAI 以 0.83 分位列第一,第二名為 Claude Code(0.76),第三名為 Cursor(0.70)。覆蓋率方面領先系統幾乎飽和,但漏洞檢測率和穩定性構成主要差異。KushoAI 在所有 20 個場景中實現了 100% 的頂級字段覆蓋率,運行間標準差最低(±0.03)。
報告強調,提示工程可提升參數覆蓋和字段級負面測試,但無法系統性地產生跨字段業務邏輯測試。對於 CI/CD 集成,輸出穩定性與峯值性能同等重要。KushoAI 的低方差使其更適合自動化流水線。效率指標上,KushoAI 得分較低(0.14),因其生成了更多測試用例,但報告認為增加探索以發現更多漏洞是值得的權衡。
該基準測試包含 20 個場景,涵蓋電子商務、支付、認證、用户管理、調度、通知和搜索/過濾等領域,共 97 個植入漏洞。測試方法強調黑盒約束,模擬團隊在僅有 API 模式時的實際挑戰。KushoAI 的專用工作流通過內部字段分析和跨字段候選構建,在複雜業務邏輯檢測上表現出色。