2026-06-04 22:42 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

Show HN：7个人工智能系统的黑盒API漏洞检测

KushoAI发布了一份基准测试报告，评估了7个AI系统在仅提供JSON模式和有效样本载荷的情况下，检测API中埋入的功能性漏洞的能力。KushoAI以83%的综合得分排名第一，在复杂漏洞检测上显著领先。报告指出通用LLM和编程代理通过提示工程提升了广度，但跨字段业务逻辑仍是关键差距。

来源Hacker News AI作者: riyajoshi

KushoAI 发布了一份针对 AI 驱动 API 测试工具的基准测试报告，评估了 7 个系统在严格黑盒条件下的漏洞检测能力。每个系统仅获得 JSON 模式和一条有效样本载荷，无源代码、文档或漏洞提示，需生成测试用例以触发 API 中的 97 个植入漏洞（分为简单、中等、复杂三级）。

报告比较了通用 LLM（GPT-5、Claude Sonnet 4.6、Gemini 2.5 Pro）、编程代理（Claude Code、Cursor、GitHub Copilot）以及专用 API 测试代理 KushoAI。结果显示，所有系统在简单漏洞上表现接近，但在复杂漏洞上差距显著。KushoAI 检测出 76% 的复杂漏洞，而最强的编程代理（Claude Code）为 53%，最强通用 LLM（Sonnet 4.6）为 34%。

综合评分公式为：漏洞检测率（70%）、覆盖率（20%）和效率（10%）。KushoAI 以 0.83 分位列第一，第二名为 Claude Code（0.76），第三名为 Cursor（0.70）。覆盖率方面领先系统几乎饱和，但漏洞检测率和稳定性构成主要差异。KushoAI 在所有 20 个场景中实现了 100% 的顶级字段覆盖率，运行间标准差最低（±0.03）。

报告强调，提示工程可提升参数覆盖和字段级负面测试，但无法系统性地产生跨字段业务逻辑测试。对于 CI/CD 集成，输出稳定性与峰值性能同等重要。KushoAI 的低方差使其更适合自动化流水线。效率指标上，KushoAI 得分较低（0.14），因其生成了更多测试用例，但报告认为增加探索以发现更多漏洞是值得的权衡。

该基准测试包含 20 个场景，涵盖电子商务、支付、认证、用户管理、调度、通知和搜索/过滤等领域，共 97 个植入漏洞。测试方法强调黑盒约束，模拟团队在仅有 API 模式时的实际挑战。KushoAI 的专用工作流通过内部字段分析和跨字段候选构建，在复杂业务逻辑检测上表现出色。