Show HN:7个人工智能系统的黑盒API漏洞检测
KushoAI发布了一份基准测试报告,评估了7个AI系统在仅提供JSON模式和有效样本载荷的情况下,检测API中埋入的功能性漏洞的能力。KushoAI以83%的综合得分排名第一,在复杂漏洞检测上显著领先。报告指出通用LLM和编程代理通过提示工程提升了广度,但跨字段业务逻辑仍是关键差距。
KushoAI 发布了一份针对 AI 驱动 API 测试工具的基准测试报告,评估了 7 个系统在严格黑盒条件下的漏洞检测能力。每个系统仅获得 JSON 模式和一条有效样本载荷,无源代码、文档或漏洞提示,需生成测试用例以触发 API 中的 97 个植入漏洞(分为简单、中等、复杂三级)。
报告比较了通用 LLM(GPT-5、Claude Sonnet 4.6、Gemini 2.5 Pro)、编程代理(Claude Code、Cursor、GitHub Copilot)以及专用 API 测试代理 KushoAI。结果显示,所有系统在简单漏洞上表现接近,但在复杂漏洞上差距显著。KushoAI 检测出 76% 的复杂漏洞,而最强的编程代理(Claude Code)为 53%,最强通用 LLM(Sonnet 4.6)为 34%。
综合评分公式为:漏洞检测率(70%)、覆盖率(20%)和效率(10%)。KushoAI 以 0.83 分位列第一,第二名为 Claude Code(0.76),第三名为 Cursor(0.70)。覆盖率方面领先系统几乎饱和,但漏洞检测率和稳定性构成主要差异。KushoAI 在所有 20 个场景中实现了 100% 的顶级字段覆盖率,运行间标准差最低(±0.03)。
报告强调,提示工程可提升参数覆盖和字段级负面测试,但无法系统性地产生跨字段业务逻辑测试。对于 CI/CD 集成,输出稳定性与峰值性能同等重要。KushoAI 的低方差使其更适合自动化流水线。效率指标上,KushoAI 得分较低(0.14),因其生成了更多测试用例,但报告认为增加探索以发现更多漏洞是值得的权衡。
该基准测试包含 20 个场景,涵盖电子商务、支付、认证、用户管理、调度、通知和搜索/过滤等领域,共 97 个植入漏洞。测试方法强调黑盒约束,模拟团队在仅有 API 模式时的实际挑战。KushoAI 的专用工作流通过内部字段分析和跨字段候选构建,在复杂业务逻辑检测上表现出色。