AI News HubLIVE
站内改写2 分で読了

Show HN:7つのAIシステムにおけるブラックボックスAPIバグ検出

KushoAIが、JSONスキーマと1つの有効なサンプルペイロードのみを与えられた7つのAIシステムのAPIバグ検出能力を評価したベンチマークを公開。KushoAIは総合スコア0.83で1位となり、複雑なバグの検出で他を大きく引き離した。レポートは、プロンプトエンジニアリングが網羅性を向上させる一方で、クロスフィールドのビジネスロジック推論には一貫して効果がなく、テストの構成が量よりも重要であることを示している。

ソースHacker News AI著者: riyajoshi

KushoAIは、AI駆動のAPIテストツールに関するベンチマークレポートを公開し、厳格なブラックボックス条件下での7つのシステムのバグ検出能力を評価しました。各システムは、JSONスキーマと1つの有効なサンプルペイロードのみを与えられ、ソースコード、ドキュメント、バグのヒントは一切提供されず、97個の埋め込まれた機能バグ(単純、中程度、複雑の3段階)をトリガーするテストケースを生成する必要がありました。

レポートでは、汎用LLM(GPT-5、Claude Sonnet 4.6、Gemini 2.5 Pro)、コーディングエージェント(Claude Code、Cursor、GitHub Copilot)、および専用APIテストエージェントKushoAIを比較しました。結果、すべてのシステムが単純なバグでは同等のパフォーマンスを示しましたが、複雑なバグでは大きな差が生じました。KushoAIは複雑なバグの76%を検出したのに対し、最強のコーディングエージェント(Claude Code)は53%、最強の汎用LLM(Sonnet 4.6)は34%でした。

総合スコアの計算式は、バグ検出率(70%)、カバレッジ(20%)、効率(10%)です。KushoAIは0.83点で1位、2位はClaude Code(0.76)、3位はCursor(0.70)でした。カバレッジは主要システムでほぼ飽和状態でしたが、バグ検出率と安定性が主な差別化要因となりました。KushoAIは20のシナリオすべてでトップレベルフィールドの100%カバレッジを達成し、実行間の標準偏差が最も低かった(±0.03)です。

レポートは、プロンプトエンジニアリングがパラメータカバレッジとフィールドレベルのネガティブテストを向上させる一方で、クロスフィールドのビジネスロジックテストを系統的に生成することはできないと強調しています。CI/CD統合においては、出力の安定性がピークパフォーマンスと同様に重要です。KushoAIの低分散は、自動化パイプラインに適しています。効率指標では、KushoAIはより多くのテストケースを生成したため低スコア(0.14)でしたが、レポートは、より多くのバグを発見するための探索の増加は価値のあるトレードオフであると述べています。