AI News HubLIVE
站内改写2 分で読了

LangSmith ベンチマークの共有

LangSmithは、公開ベンチマークと評価データセットの共有機能を開始し、開発者が異なるLLMアーキテクチャのパフォーマンスを同じタスクで比較できるようにしました。最初のベンチマークはLangChainドキュメントのQ&Aデータセットで、langchain-benchmarksパッケージもリリースされました。記事では、さまざまなモデルとアーキテクチャのパフォーマンスを分析し、デバッグ方法を提供しています。

LLMアプリケーションを本番環境に移行する際、テストと評価は開発者にとって最大の課題です。新しいモデル、検索技術、エージェントタイプ、認知アーキテクチャが次々と登場する中で、この困難はさらに強まっています。LangSmithは過去数ヶ月でLLMアーキテクチャ評価の最適なプラットフォームとなり、テスト比較ビューやデータセット管理を提供してきました。今回、評価データセットと結果の共有機能を開始し、コミュニティ主導のベンチマークをより容易にしました。同時に、langchain-benchmarksパッケージもリリースされ、結果の再現や独自アーキテクチャの実験が可能になりました。

テスト共有により、LangSmith上の誰でも、異なるアーキテクチャが同じタスクセットでどのように機能するかについての全データと指標を公開できます。各評価結果には、テストしたチェーンの完全なトレースも含まれており、集計統計を超えて、各データポイントに対するシステムのステップバイステップの実行を確認できます。

最初のベンチマークは、LangChainドキュメントに関するQ&Aデータセットです。このデータセットは手作業で作成された質問と回答のペアで、複数のドキュメントから情報を統合する能力や、ドキュメントの知識と矛盾する質問への対応をテストします。初期評価では、異なる言語モデル(OpenAI、Anthropic、オープンソースモデル)と認知アーキテクチャ(会話検索チェーン、エージェント)の組み合わせを検証しました。

単純なRAGアプローチの比較では、同じ検索器を使用した場合でも、モデルによって性能が異なりました。例えば、GPT-4の正確度スコアは0.50、Zephyr-7b-betaは0.31でした。エージェントアーキテクチャでは、OpenAI Assistant APIが最高の0.62を記録し、GPT-3.5ベースの関数呼び出しエージェントは0.47でした。各結果のリンクから詳細なトレースを確認できます。

手動でデータポイントを確認することで、弱点を特定できます。例えば、「知識の欠如」に関する質問では、GPT-3.5が幻覚を起こし、存在しないドキュメントリンクを作成する一方、Mistralモデルは不正確な回答を回避しました。トレースを調べると、検索されたドキュメントが質問に関連していないことが分かり、プロンプトの最適化や検索戦略の改善につながります。別の例では、Mistralモデルがドキュメントの順序に影響されて誤回答したのに対し、GPT-3.5は正しく回答しました。ドキュメントの順序を入れ替えることで改善が確認されました。

レイテンシも重要な指標です。オープンソースモデル(Mistral 7Bなど)は速度で優れるものの、正確度では劣ります。全体として、クローズドソースAPIはそのままでも高い性能を発揮しますが、適切なプロンプトエンジニアリングにより差を縮めることが可能です。LangSmithの公開ベンチマークは、コミュニティに貴重な参考情報を提供し、開発者が実際のデータに基づいて意思決定を行うのを支援します。