AI News HubLIVE
站内改写1 分鐘閱讀

Show HN:7個人工智慧系統的黑盒API漏洞檢測

KushoAI釋出了一份基準測試報告,評估了7個AI系統在僅提供JSON模式和有效樣本載荷的情況下,檢測API中埋入的功能性漏洞的能力。KushoAI以83%的綜合得分排名第一,在複雜漏洞檢測上顯著領先。報告指出通用LLM和程式設計代理透過提示工程提升了廣度,但跨欄位業務邏輯仍是關鍵差距。

來源Hacker News AI作者: riyajoshi

KushoAI 釋出了一份針對 AI 驅動 API 測試工具的基準測試報告,評估了 7 個系統在嚴格黑盒條件下的漏洞檢測能力。每個系統僅獲得 JSON 模式和一條有效樣本載荷,無原始碼、文件或漏洞提示,需生成測試用例以觸發 API 中的 97 個植入漏洞(分為簡單、中等、複雜三級)。

報告比較了通用 LLM(GPT-5、Claude Sonnet 4.6、Gemini 2.5 Pro)、程式設計代理(Claude Code、Cursor、GitHub Copilot)以及專用 API 測試代理 KushoAI。結果顯示,所有系統在簡單漏洞上表現接近,但在複雜漏洞上差距顯著。KushoAI 檢測出 76% 的複雜漏洞,而最強的程式設計代理(Claude Code)為 53%,最強通用 LLM(Sonnet 4.6)為 34%。

綜合評分公式為:漏洞檢測率(70%)、覆蓋率(20%)和效率(10%)。KushoAI 以 0.83 分位列第一,第二名為 Claude Code(0.76),第三名為 Cursor(0.70)。覆蓋率方面領先系統幾乎飽和,但漏洞檢測率和穩定性構成主要差異。KushoAI 在所有 20 個場景中實現了 100% 的頂級欄位覆蓋率,執行間標準差最低(±0.03)。

報告強調,提示工程可提升引數覆蓋和欄位級負面測試,但無法系統性地產生跨欄位業務邏輯測試。對於 CI/CD 整合,輸出穩定性與峰值效能同等重要。KushoAI 的低方差使其更適合自動化流水線。效率指標上,KushoAI 得分較低(0.14),因其生成了更多測試用例,但報告認為增加探索以發現更多漏洞是值得的權衡。

該基準測試包含 20 個場景,涵蓋電子商務、支付、認證、使用者管理、排程、通知和搜尋/過濾等領域,共 97 個植入漏洞。測試方法強調黑盒約束,模擬團隊在僅有 API 模式時的實際挑戰。KushoAI 的專用工作流透過內部欄位分析和跨欄位候選構建,在複雜業務邏輯檢測上表現出色。