2026-06-01 04:31 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

Show HN: GEDD – 在用户发现之前找到AI代理的错误

GEDD 是一款开源工具，专为领域专家设计，用于在缺乏预定义评估标准的情况下系统性地发现AI代理的失败模式。它通过领域专家与系统的对话，在90分钟内生成生产级的评估流水线，捕获如剂量单位混淆、覆盖范围幻觉等专业错误。该工具遵循Grounded Theory方法论，流程包括定义代理、生成提示、部署、创建黄金查询、标注和判断，最终产出ML工程师可用的评估流水线。GEDD已在多个领域测试，并提供了17个演示场景。

来源Hacker News AI作者: balasvce19855

GEDD (Grounded Evaluation for Domain Discovery) 是一个开源工具，旨在帮助团队在AI代理部署前发现其失败模式。传统的评估方法通常要求开发者事先知道要测量什么，但GEDD反其道而行之——它让领域专家通过与系统的交互，自然发现代理在实际场景中的缺陷。

该工具的核心在于“Grounded Theory”方法论。领域专家只需与代理进行对话，GEDD便会引导他们完成六个步骤：首先定义代理的边界（例如“RxBot帮助患者处理药物问题”），然后编写系统提示和安全规则，接着一键部署到Amazon Bedrock AgentCore。随后，专家通过“开放编码”方法生成20个测试用例（黄金查询），并运行这些查询。在第五步，专家对代理的响应进行标注（正确/警告/错误），并赋予领域特定的错误代码，如“dosage_unit_confusion”（剂量单位混淆）。最后，ML工程师可以将这些标注导出为SageMaker MLflow实验，并集成到CI/CD流水线中。

GEDD的独特之处在于其“飞轮”设计：生产环境中的新失败会自动反馈到测试集，使评估套件随代理一起成长。例如，在药房场景中，代理将“mg”误说为“mcg”，这可能导致致命错误，而只有药剂师才能识别这种细微差别。类似地，在税务场景中，代理未建议客户咨询注册会计师处理高额收入，这也是一种只有领域专家才能发现的疏漏。

该工具完全基于AWS云原生架构，使用IAM进行认证，S3存储工件，无需外部服务。它还提供了17个预加载的演示场景，涵盖旅行预订、临床分诊、法律咨询、金融规划等多个领域，每个场景都包含黄金查询、标注和生成的判断器。用户可以通过简单的命令行界面运行这些演示，无需调用任何LLM。

GEDD的最终目标是让评估从通用指标（如“帮助性评分1-5”）转向领域专家自己的词汇表。每个失败模式都带有证据权重，判断器根据专家定义的准则进行校准。通过Cohen's Kappa系数确保判断器与人类标注者的一致性达到0.80以上。

总而言之，GEDD为AI代理的质量保证提供了一种定性的、基于发现的方法，特别适合产品经理和领域专家在没有预定义评估标准时使用。它已在多个实际案例中证明能捕获工程师容易遗漏的领域特定错误。