AI News HubLIVE
站内改写2 分で読了

Show HN: GEDD – AIエージェントの誤りをユーザーより先に見つける

GEDDは、ドメイン専門家が事前に評価基準を用意することなくAIエージェントの失敗パターンを体系的に発見するためのオープンソースツールです。専門家との対話を通じて90分で本番レベルの評価パイプラインを生成し、投薬単位の混同や保険適用の幻覚といったドメイン固有のエラーをキャッチします。Grounded Theory手法に基づき、複数ドメインでテスト済みで、17のデモシナリオが用意されています。

ソースHacker News AI著者: balasvce19855

GEDD(Grounded Evaluation for Domain Discovery)は、AIエージェントのデプロイ前にその失敗モードを発見するためのオープンソースツールです。従来の評価手法は何を測定すべきかを事前に知っている必要がありますが、GEDDはその逆を行います——ドメイン専門家がエージェントと対話しながら、実際のシナリオで欠陥を自然に発見できるようにします。

このツールの核心は「Grounded Theory」手法にあります。ドメイン専門家はエージェントと対話するだけで、GEDDが6つのステップをガイドします:まずエージェントの境界を定義し(例:「RxBotは患者の薬に関する問題を扱う」)、次にシステムプロンプトと安全ルールを作成し、Amazon Bedrock AgentCoreにワンクリックでデプロイします。その後、専門家は「オープンコーディング」手法で20のテストケース(ゴールデンクエリ)を生成し、それらを実行します。第5ステップで、専門家はエージェントの応答に✓(正解)/⚠(警告)/✗(誤り)のラベルを付け、「dosage_unit_confusion」(投薬単位の混同)などのドメイン固有のエラーコードを割り当てます。最後に、MLエンジニアがこれらのアノテーションをSageMaker MLflow実験にエクスポートし、CI/CDパイプラインに統合できます。

GEDDのユニークな点は「フライホイール」設計です:本番環境での新しい失敗が自動的にテストセットにフィードバックされ、評価スイートがエージェントとともに成長します。例えば、薬局シナリオでは、エージェントが「mg」を「mcg」と誤って言い、致命的なエラーを引き起こす可能性がありますが、これは薬剤師だけが認識できる微妙な違いです。同様に、税務シナリオでは、エージェントが高額所得のケースでCPA(公認会計士)への相談を推奨しないという見落としがあり、これもドメイン専門家のみが発見できるものです。

このツールは完全にAWSクラウドネイティブであり、認証にIAM、アーティファクトにS3を使用し、外部サービスは不要です。また、旅行予約、臨床トリアージ、法律相談、財務計画など、さまざまなドメインをカバーする17のプリロード済みデモシナリオが用意されており、各シナリオにはゴールデンクエリ、アノテーション、生成された判定器が含まれています。ユーザーはコマンドラインインターフェースからこれらのデモを実行でき、LLMを呼び出す必要はありません。

GEDDの最終目標は、評価を一般的な指標(「役立ち度1-5」など)からドメイン専門家自身の語彙に移行させることです。各失敗モードには証拠に基づく重みが付けられ、判定器は専門家が定義した基準で調整されます。Cohen's Kappa係数を使用して、判定器と人間のアノテーター間の一致度が0.80以上になるように校正されます。

要約すると、GEDDはAIエージェントの品質保証に定性的で発見ベースのアプローチを提供し、特に事前に評価基準がない場合にプロダクトマネージャーやドメイン専門家にとって有用です。実際のユースケースで、エンジニアが見逃しがちなドメイン固有のエラーをキャッチできることが実証されています。