AI News HubLIVE
站内改写4 分で読了

LangSmithによるペアワイズ評価

ペアワイズ評価とは何か、LLMアプリ開発に必要な理由、およびLangChainのLangSmithでの使用例を学びます。

モデル出力の評価は、LLMアプリケーション開発における最も重要な課題の1つです。しかし、チャットやライティングなどの多くのタスクでは、人間の好みを一連のルールにエンコードすることは困難です。代わりに、複数の候補LLM回答のペアワイズ評価は、LLMに人間の好みを教えるためのより効果的な方法です。

ペアワイズ評価の起源

ペアワイズ評価は、LLMモデルのパフォーマンスをテストおよびベンチマークするための議論で重要な役割を果たし始めています。例えば、人間からのフィードバックによる強化学習(RLHF)は、LLMのアライメントでペアワイズ評価の概念を採用しています。人間のトレーナーは、同じ入力に対するLLM応答のペアを提示され、特定の基準(有用性、情報量、安全性など)にどちらがより適合するかを選択します。

最も人気のあるLLMベンチマークの1つであるChatbot Arenaもこのアイデアを採用しています。与えられたユーザープロンプトに対して2つの匿名のLLM生成結果を提示し、ユーザーがより良いものを選べるようにします。Chatbot Arenaはペアワイズ評価に人間のフィードバックを依存していますが、LLM-as-judgeを使用して人間の好みを予測し、このプロセスを自動化することも可能です。

ペアワイズ評価は公開ベンチマークやLLMアライメントで人気がある一方、多くのユーザーはカスタムペアワイズ評価を自分のLLMアプリケーションの改善に使用する方法を知らないかもしれません。この制限を考慮して、LangSmithにペアワイズ評価を新機能として追加しました。

LangSmithのペアワイズ評価器

LangSmithのペアワイズ評価により、ユーザーは(1)任意の望ましい基準を使用してカスタムペアワイズLLM-as-judge評価器を定義し、(2)この評価器を使用して2つのLLM生成結果を比較できます。比較する実行を選択する代わりに、「データセットとテスト」タブをクリックすると、「ペアワイズ実験」という新しいサブヘッダーが表示されます。

比較ビューとの違い

「これは比較ビューとどう違うのか?」という疑問があるかもしれません。

見逃した方のために、数週間前に回帰テスト用の改良された比較ビューをリリースしました。これにより、2つの実行を比較して回帰を特定できます。ペアワイズ評価は目標が似ていますが、実装が明らかに異なります。

以前の比較ビューでは、各実行を個別に評価し、スコアを比較していました。例えば、各実行に1〜10のスケールで個別に評価を付け、一方が他方より高いスコアを得たケースを探していました。

ペアワイズ評価では、結果を同時に見ます。これにより、2つの結果を明示的に比較する評価器を定義できます。そして、そのペアのスコアを取得します。各実行を個別に採点するわけではありません。

ペアワイズ評価を使用するタイミング

この機能を動機付けるために、このビデオではコンテンツ生成に関連する一般的なユースケースを示しています。この例では、学術論文を要約する魅力的なツイートをLLMに生成させたいと考えています。10個の異なる論文のデータセットを作成し、4つの異なるLLMから要約を生成しました。

LLMに生成させたい単一の「正解」の論文要約がないため、5つの基準(絵文字の使用、魅力的なタイトルなど)に基づいて要約ツイートを1(最悪)から5(最高)で評価する基準評価器を使用しました。

このsummary_engagement_scoreをデータセットに取り込みます。

しかし、これによりすぐに問題が浮き彫りになります。4つのLLMのうち3つがsummary_engagement_scoreで完全なスコアを獲得し、それらの間に差がありません。単独では、さまざまなLLMを区別する基準評価器を定義するのは困難です。しかし、ペアワイズ評価はこの課題に取り組む別の方法を提供します。

カスタムペアワイズ評価の使用

ビデオで示されているように、LangSmith SDKでカスタムペアワイズ評価器を使用し、LangSmith UIでペアワイズ評価の結果を可視化します。上記の問題に適用するために、まず関心のある基準(例えば、タイトルや箇条書きなどに基づいて、2つのツイート要約のどちらがより魅力的か)をエンコードしたペアワイズ評価プロンプトを定義します。次に、データセット上で既に実行された任意の2つの実験に対して、カスタム評価器evaluate_pairwiseを実行するだけです。

from langsmith.evaluation import evaluate_comparative evaluate_comparative( ["summary-cmd-r-f692a55c", "summary-opus-21590361"], evaluators=[evaluate_pairwise], )

UIでは、データセットの「ペアワイズ実験」タブにすべてのペアワイズ評価の結果が表示されます。重要なのは、ペアワイズ評価が特定のLLMに対して明確な好みを示していることです。これは、ほとんど識別を示さなかった単独の基準評価とは対照的です。

UIでは、各ペアワイズ実験にドリルダウンでき、基準に基づいてどのLLM生成が好まれるかが表示されます(列の上部に色とサムズアイコンで表示)。各回答の下のranked_preferenceスコアをクリックすると、各評価トレースにさらにドリルダウンでき、ランキングの説明が表示されます。

結論

テキスト生成やチャットなど、多くのLLMユースケースには評価に使用する単一または具体的な「正解」がありません。そのような場合、人間またはLLMが好ましい応答を選択するペアワイズ評価は強力なアプローチです。

このブログ投稿では、ツイート要約生成を評価するというあいまいなタスクでテストし、単独の評価基準の欠点を明らかにしました。カスタムペアワイズ評価器により、生成結果を直接比較でき、モデル間の明確な好みが明らかになりました。

さらに詳しく知りたい場合は、ペアワイズ評価に関するビデオとドキュメントをご覧ください。そして、プロンプトのバージョン管理、デバッグ、人間による注釈をサポートする堅牢な実験と評価のために、今すぐLangSmithをお試しください。LLMアプリを構築する際に、本番環境の可観測性を得ることができます。

エージェントが実際に何をしているかを確認

LangSmithは、エージェントエンジニアリングプラットフォームであり、開発者がすべてのエージェントの決定をデバッグし、変更を評価し、ワンクリックでデプロイするのに役立ちます。

LangSmithを試す

デモを取得