2026-06-01 04:31 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

Show HN: GEDD – 在用户發現之前找到AI代理的錯誤

GEDD 是一款開源工具，專為領域專家設計，用於在缺乏預定義評估標準的情況下系統性地發現AI代理的失敗模式。它通過領域專家與系統的對話，在90分鐘內生成生產級的評估流水線，捕獲如劑量單位混淆、覆蓋範圍幻覺等專業錯誤。該工具遵循Grounded Theory方法論，流程包括定義代理、生成提示、部署、創建黃金查詢、標註和判斷，最終產出ML工程師可用的評估流水線。GEDD已在多個領域測試，並提供了17個演示場景。

來源Hacker News AI作者: balasvce19855

GEDD (Grounded Evaluation for Domain Discovery) 是一個開源工具，旨在幫助團隊在AI代理部署前發現其失敗模式。傳統的評估方法通常要求開發者事先知道要測量什麼，但GEDD反其道而行之——它讓領域專家通過與系統的交互，自然發現代理在實際場景中的缺陷。

該工具的核心在於“Grounded Theory”方法論。領域專家只需與代理進行對話，GEDD便會引導他們完成六個步驟：首先定義代理的邊界（例如“RxBot幫助患者處理藥物問題”），然後編寫系統提示和安全規則，接着一鍵部署到Amazon Bedrock AgentCore。隨後，專家通過“開放編碼”方法生成20個測試用例（黃金查詢），並運行這些查詢。在第五步，專家對代理的響應進行標註（正確/警告/錯誤），並賦予領域特定的錯誤代碼，如“dosage_unit_confusion”（劑量單位混淆）。最後，ML工程師可以將這些標註導出為SageMaker MLflow實驗，並集成到CI/CD流水線中。

GEDD的獨特之處在於其“飛輪”設計：生產環境中的新失敗會自動反饋到測試集，使評估套件隨代理一起成長。例如，在藥房場景中，代理將“mg”誤説為“mcg”，這可能導致致命錯誤，而只有藥劑師才能識別這種細微差別。類似地，在税務場景中，代理未建議客户諮詢註冊會計師處理高額收入，這也是一種只有領域專家才能發現的疏漏。

該工具完全基於AWS雲原生架構，使用IAM進行認證，S3存儲工件，無需外部服務。它還提供了17個預加載的演示場景，涵蓋旅行預訂、臨牀分診、法律諮詢、金融規劃等多個領域，每個場景都包含黃金查詢、標註和生成的判斷器。用户可以通過簡單的命令行界面運行這些演示，無需調用任何LLM。

GEDD的最終目標是讓評估從通用指標（如“幫助性評分1-5”）轉向領域專家自己的詞彙表。每個失敗模式都帶有證據權重，判斷器根據專家定義的準則進行校準。通過Cohen's Kappa係數確保判斷器與人類標註者的一致性達到0.80以上。

總而言之，GEDD為AI代理的質量保證提供了一種定性的、基於發現的方法，特別適合產品經理和領域專家在沒有預定義評估標準時使用。它已在多個實際案例中證明能捕獲工程師容易遺漏的領域特定錯誤。