評価駆動開発によるLLM信頼性への反復的アプローチ
Dosuは評価駆動開発(EDD)とLangSmithを活用し、大規模なLLM製品の信頼性を構築し、本番パフォーマンスを監視し、自信を持って反復改善を行っています。
記事インテリジェンス
要点
- Dosuは評価駆動開発(EDD)を採用し、テスト駆動開発のようにLLMの信頼性を確保しています。
- LangSmithのSDKは簡単に統合でき、細かい制御とカスタマイズ性を提供します。
- LangSmithの高度な検索機能により、障害モードを特定し、評価データセットの自動収集が可能になります。
重要な理由
このニュースが重要なのは、Dosuは評価駆動開発(EDD)を採用し、テスト駆動開発のようにLLMの信頼性を確保していますためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
プロダクション品質のLLM製品を構築する際、信頼性は重要な課題です。LLMは確率的な関数に基づくため、その信頼性を確保するのは簡単ではありません。Dosu社は、評価駆動開発(EDD)とLangSmithツールを活用して、この目標を達成しています。
Dosuは、ソフトウェアプロジェクトの開発、保守、サポートを支援するAIエンジニアアシスタントです。その起源は、作者がオープンソースメンテナーとして多くの時間をサポート業務に費やした経験にあります。Dosuはこれらの非コーディングタスクを引き受け、開発者がコーディングと機能提供に集中できるようにします。
初期段階では、Dosuチームは手動で各応答を検査し、grepやprint文を使って改善点を特定していました。しかし、利用量が増えるにつれてこの方法は持続不可能になりました。そこで、EDD手法を採用し、評価(eval)をベンチマークとして定義することで、変更による性能低下を防ぎました。
規模拡大に対応するため、Dosuは監視スタックをアップグレードし、LangSmithを選択しました。LangSmithのSDKは、@traceableデコレータで簡単に統合でき、全トレースを可視化します。LangSmithの高度な検索機能により、ユーザーフィードバック、感情分析、内部エラー、応答時間の異常など、障害モードを特定できます。
LangSmithを通じて、Dosuは本番トラフィックからの失敗事例を自動的に評価データセットに追加し、これらの評価に基づいて反復改善を行うワークフローを確立しました。このプロセスは好循環を生み出します:LangSmithがDosuの改善を加速し、Dosuの改善がLangChainチームの保守負担を軽減し、さらにLangSmithの機能開発を促進します。
将来的には、DosuはLangSmithのカスタマイズを進め、会話トピックやユーザーセグメントに基づく自動評価データセット収集を目指しています。すでに、ユーザーが数千行のログやOpenAI埋め込みの生の浮動小数点値を共有した際の極端に遅い応答や、プルリクエストのラベル付けを依頼された際にコンサートの話をしたなど、予期せぬ障害モードを特定しています。これらの事例は評価セットに追加され、継続的な改善に活用されています。DosuとLangChainの協力は、楽しいフライホイール効果を生んでいます:LangSmithがDosuの反復を加速し、Dosuの改善がLangChainの保守負担を減らし、LangChainはLangSmithの機能開発により多くの時間を割けるようになり、それがDosuの開発をさらに加速します。
EDDのプロセスは次の通りです:新たな振る舞いを少数の初期評価とともに作成し、ユーザーに公開し、本番の結果を監視して障害モードを特定し、各障害モードの例をオフライン評価セットに追加し、更新された評価に基づいて反復し、再公開して繰り返します。この方法論により、Dosuは大規模展開でも高品質を維持しています。現在Dosuは数千のリポジトリにインストールされ、24時間体制で応答を生成しており、さまざまなシナリオをインテリジェントに処理する数十のサブモジュールを備えています。
LangSmithの統合は非常に簡単で、関連する関数に@traceableデコレータを追加するだけでコードレベルのトレースが可能になり、関数の生の入力、レンダリングされたプロンプトテンプレート、LLM出力を単一のトレースで表示できます。高度な検索は、ユーザーフィードバック、エラーイベント、応答遅延、ネガティブな感情などの条件で異常な振る舞いを特定するのに役立ちます。DosuはLangSmithをさらにカスタマイズし、プロダクショントラフィックから自動的に評価データセットを構築し、エンジニアが会話トピック、ユーザーセグメント、リクエストカテゴリなどに基づいて簡単にデータをキュレーションできるようにすることを目指しています。