AI News HubLIVE
站内改写2 分鐘閱讀

Show HN: GEDD – 在用户發現之前找到AI代理的錯誤

GEDD 是一款開源工具,專為領域專家設計,用於在缺乏預定義評估標準的情況下系統性地發現AI代理的失敗模式。它通過領域專家與系統的對話,在90分鐘內生成生產級的評估流水線,捕獲如劑量單位混淆、覆蓋範圍幻覺等專業錯誤。該工具遵循Grounded Theory方法論,流程包括定義代理、生成提示、部署、創建黃金查詢、標註和判斷,最終產出ML工程師可用的評估流水線。GEDD已在多個領域測試,並提供了17個演示場景。

來源Hacker News AI作者: balasvce19855

GEDD (Grounded Evaluation for Domain Discovery) 是一個開源工具,旨在幫助團隊在AI代理部署前發現其失敗模式。傳統的評估方法通常要求開發者事先知道要測量什麼,但GEDD反其道而行之——它讓領域專家通過與系統的交互,自然發現代理在實際場景中的缺陷。

該工具的核心在於“Grounded Theory”方法論。領域專家只需與代理進行對話,GEDD便會引導他們完成六個步驟:首先定義代理的邊界(例如“RxBot幫助患者處理藥物問題”),然後編寫系統提示和安全規則,接着一鍵部署到Amazon Bedrock AgentCore。隨後,專家通過“開放編碼”方法生成20個測試用例(黃金查詢),並運行這些查詢。在第五步,專家對代理的響應進行標註(正確/警告/錯誤),並賦予領域特定的錯誤代碼,如“dosage_unit_confusion”(劑量單位混淆)。最後,ML工程師可以將這些標註導出為SageMaker MLflow實驗,並集成到CI/CD流水線中。

GEDD的獨特之處在於其“飛輪”設計:生產環境中的新失敗會自動反饋到測試集,使評估套件隨代理一起成長。例如,在藥房場景中,代理將“mg”誤説為“mcg”,這可能導致致命錯誤,而只有藥劑師才能識別這種細微差別。類似地,在税務場景中,代理未建議客户諮詢註冊會計師處理高額收入,這也是一種只有領域專家才能發現的疏漏。

該工具完全基於AWS雲原生架構,使用IAM進行認證,S3存儲工件,無需外部服務。它還提供了17個預加載的演示場景,涵蓋旅行預訂、臨牀分診、法律諮詢、金融規劃等多個領域,每個場景都包含黃金查詢、標註和生成的判斷器。用户可以通過簡單的命令行界面運行這些演示,無需調用任何LLM。

GEDD的最終目標是讓評估從通用指標(如“幫助性評分1-5”)轉向領域專家自己的詞彙表。每個失敗模式都帶有證據權重,判斷器根據專家定義的準則進行校準。通過Cohen's Kappa係數確保判斷器與人類標註者的一致性達到0.80以上。

總而言之,GEDD為AI代理的質量保證提供了一種定性的、基於發現的方法,特別適合產品經理和領域專家在沒有預定義評估標準時使用。它已在多個實際案例中證明能捕獲工程師容易遺漏的領域特定錯誤。