Show HN: GEDD – 在用户发现之前找到AI代理的错误
GEDD 是一款开源工具,专为领域专家设计,用于在缺乏预定义评估标准的情况下系统性地发现AI代理的失败模式。它通过领域专家与系统的对话,在90分钟内生成生产级的评估流水线,捕获如剂量单位混淆、覆盖范围幻觉等专业错误。该工具遵循Grounded Theory方法论,流程包括定义代理、生成提示、部署、创建黄金查询、标注和判断,最终产出ML工程师可用的评估流水线。GEDD已在多个领域测试,并提供了17个演示场景。
GEDD (Grounded Evaluation for Domain Discovery) 是一个开源工具,旨在帮助团队在AI代理部署前发现其失败模式。传统的评估方法通常要求开发者事先知道要测量什么,但GEDD反其道而行之——它让领域专家通过与系统的交互,自然发现代理在实际场景中的缺陷。
该工具的核心在于“Grounded Theory”方法论。领域专家只需与代理进行对话,GEDD便会引导他们完成六个步骤:首先定义代理的边界(例如“RxBot帮助患者处理药物问题”),然后编写系统提示和安全规则,接着一键部署到Amazon Bedrock AgentCore。随后,专家通过“开放编码”方法生成20个测试用例(黄金查询),并运行这些查询。在第五步,专家对代理的响应进行标注(正确/警告/错误),并赋予领域特定的错误代码,如“dosage_unit_confusion”(剂量单位混淆)。最后,ML工程师可以将这些标注导出为SageMaker MLflow实验,并集成到CI/CD流水线中。
GEDD的独特之处在于其“飞轮”设计:生产环境中的新失败会自动反馈到测试集,使评估套件随代理一起成长。例如,在药房场景中,代理将“mg”误说为“mcg”,这可能导致致命错误,而只有药剂师才能识别这种细微差别。类似地,在税务场景中,代理未建议客户咨询注册会计师处理高额收入,这也是一种只有领域专家才能发现的疏漏。
该工具完全基于AWS云原生架构,使用IAM进行认证,S3存储工件,无需外部服务。它还提供了17个预加载的演示场景,涵盖旅行预订、临床分诊、法律咨询、金融规划等多个领域,每个场景都包含黄金查询、标注和生成的判断器。用户可以通过简单的命令行界面运行这些演示,无需调用任何LLM。
GEDD的最终目标是让评估从通用指标(如“帮助性评分1-5”)转向领域专家自己的词汇表。每个失败模式都带有证据权重,判断器根据专家定义的准则进行校准。通过Cohen's Kappa系数确保判断器与人类标注者的一致性达到0.80以上。
总而言之,GEDD为AI代理的质量保证提供了一种定性的、基于发现的方法,特别适合产品经理和领域专家在没有预定义评估标准时使用。它已在多个实际案例中证明能捕获工程师容易遗漏的领域特定错误。