2026-06-04 22:42 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Show HN：7個人工智能系統的黑盒API漏洞檢測

KushoAI發佈了一份基準測試報告，評估了7個AI系統在僅提供JSON模式和有效樣本載荷的情況下，檢測API中埋入的功能性漏洞的能力。KushoAI以83%的綜合得分排名第一，在複雜漏洞檢測上顯著領先。報告指出通用LLM和編程代理通過提示工程提升了廣度，但跨字段業務邏輯仍是關鍵差距。

來源Hacker News AI作者: riyajoshi

KushoAI 發佈了一份針對 AI 驅動 API 測試工具的基準測試報告，評估了 7 個系統在嚴格黑盒條件下的漏洞檢測能力。每個系統僅獲得 JSON 模式和一條有效樣本載荷，無源代碼、文檔或漏洞提示，需生成測試用例以觸發 API 中的 97 個植入漏洞（分為簡單、中等、複雜三級）。

報告比較了通用 LLM（GPT-5、Claude Sonnet 4.6、Gemini 2.5 Pro）、編程代理（Claude Code、Cursor、GitHub Copilot）以及專用 API 測試代理 KushoAI。結果顯示，所有系統在簡單漏洞上表現接近，但在複雜漏洞上差距顯著。KushoAI 檢測出 76% 的複雜漏洞，而最強的編程代理（Claude Code）為 53%，最強通用 LLM（Sonnet 4.6）為 34%。

綜合評分公式為：漏洞檢測率（70%）、覆蓋率（20%）和效率（10%）。KushoAI 以 0.83 分位列第一，第二名為 Claude Code（0.76），第三名為 Cursor（0.70）。覆蓋率方面領先系統幾乎飽和，但漏洞檢測率和穩定性構成主要差異。KushoAI 在所有 20 個場景中實現了 100% 的頂級字段覆蓋率，運行間標準差最低（±0.03）。

報告強調，提示工程可提升參數覆蓋和字段級負面測試，但無法系統性地產生跨字段業務邏輯測試。對於 CI/CD 集成，輸出穩定性與峯值性能同等重要。KushoAI 的低方差使其更適合自動化流水線。效率指標上，KushoAI 得分較低（0.14），因其生成了更多測試用例，但報告認為增加探索以發現更多漏洞是值得的權衡。

該基準測試包含 20 個場景，涵蓋電子商務、支付、認證、用户管理、調度、通知和搜索/過濾等領域，共 97 個植入漏洞。測試方法強調黑盒約束，模擬團隊在僅有 API 模式時的實際挑戰。KushoAI 的專用工作流通過內部字段分析和跨字段候選構建，在複雜業務邏輯檢測上表現出色。