OpenEvalsでLLM評価をすぐに始める
OpenEvalsとAgentEvalsは、LLM-as-judge、構造化データ、エージェント軌跡評価のためのビルド済み評価器を提供します。これらのオープンソースパッケージにより、開発者は評価ワークフローを迅速に構築し、LLMアプリケーションの信頼性を確保できます。
評価(Evaluation)は、信頼性の高いLLM駆動型アプリケーションやエージェントを本番環境に投入するために重要ですが、ゼロから評価を構築するのは困難です。LangChainの新しいパッケージ、openevalsとagentevalsは、評価器のセットと共通フレームワークを提供し、簡単に始められるようにします。
評価とは? 評価は、アプリケーションにとって重要な基準に基づいてLLMの出力品質を体系的に判断する方法です。評価には、評価対象のデータと評価指標の2つの要素があります。評価データの品質と多様性は、評価が実際の使用状況をどの程度反映するかに直接影響します。評価を作成する前に、特定のユースケースに合わせてデータセットをキュレーションする時間をかけましょう。わずかな高品質なデータポイントで開始できます。評価指標もアプリケーションの目標によってカスタムされることが多いですが、一般的な評価タイプには共通のトレンドがあります。openevalsとagentevalsは、そのような共通性に基づき、評価のトレンドとベストプラクティスを示すビルド済みソリューションを共有します。
一般的な評価タイプとベストプラクティス 評価のタイプは多数ありますが、openevalsは最も一般的で実用的な技術に焦点を当てています。アプローチは2つあります。1つは広く適用可能な評価器を簡単にカスタマイズできるようにすること:LLM-as-judge評価器は最も広く適用可能であり、openevalsはビルド済みの例をユースケースに合わせてカスタマイズしやすくします。2つ目は特定のユースケース向けの評価器を構築すること:ドキュメントからの構造化コンテンツ抽出、ツール呼び出し、エージェント軌跡などの一般的なケースから始め、今後RAGアプリケーションやマルチエージェントアーキテクチャなどに拡大する予定です。
LLM-as-judge評価器 LLM-as-judge評価器は、LLMを使用してアプリケーションの出力をスコアリングします。自然言語出力の評価に主に使用されます。使用例:チャットボットの応答品質、要約やQAシステムの幻覚検出、文章品質と一貫性。LLM-as-judge評価はリファレンスフリーで行えるため、正解を必要とせずに応答を客観的に判断できます。openevalsは、カスタマイズ可能なビルド済みプロンプト、少数例の統合、スコアリングスキーマの設定簡素化、評価理由のコメント生成を提供します。
構造化データ評価器 多くのLLMアプリケーションでは、ドキュメントからの構造化出力抽出やツール呼び出しのための構造化出力生成が行われます。openevalsは、完全一致またはLLM-as-judgeによる構造化出力の検証をサポートし、オプションでフィードバックキー全体のスコアを集約して評価性能の全体像を提供します。
エージェント評価:軌跡評価 エージェントを構築する際、最終出力だけでなく、その結果に至るまでの一連の行動を理解することが重要です。AgentEvalsは、エージェント軌跡評価を提供し、適切なツール選択(順序指定も可能)やLLM-as-judgeによる軌跡評価を可能にします。LangGraphを使用している場合は、グラフ軌跡評価によりエージェントが正しいノードを呼び出していることを確認できます。
LangSmithで結果を追跡 評価結果を経時的に追跡しチームと共有するには、LangSmithにログを記録することを推奨します。LangSmithはトレース、評価、実験ツールを提供し、本番品質のLLMアプリケーション構築を支援します。Elastic、Klarna、Podiumなどの企業がLangSmithを使用してGenAIアプリケーションを評価しています。
今後の計画 これは、さまざまなアプリケーションタイプの評価ベストプラクティスを体系化する取り組みの始まりに過ぎません。数週間以内に、より多くの一般的なユースケース向け評価器と、エージェントテスト用の評価器を追加する予定です。評価器のアイデアがあれば、GitHubリポジトリ(openevalsとagentevals)でIssueを開くか、プルリクエストを送信してください。