2026-06-16站内改写2 分で読了更新: 2026-06-16

LangSmithでファインチューニングされたオープンソースモデルをテストする

LangSmithを使用してファインチューニングされたオープンソースLLMを評価・比較する方法を紹介。複数のモデルをテストし、評価を自動化して最適なAIを選択します。

このチュートリアルはChatOpenSourceのCTO兼共同創業者Ryan Brandtによって執筆され、LangSmithプラットフォームを活用してファインチューニングされたオープンソース大規模言語モデル（LLM）を評価・比較する方法を示しています。Mistral 7bやLlama2ファミリーなどのオープンソースモデルの台頭により、開発者は古いゲーム機のカートリッジのようにモデルを素早く交換・比較する効率的な方法を必要としています。LangSmithは直感的なUIとAPIを提供し、評価データセットの作成を容易にしてこのプロセスを自動化します。

研究の流れ

プロジェクトの目標は、Hugging Faceのsql-create-contextデータセットを使用してLlama2-7bとLlama2-13bをファインチューニングすることでした。まず、JSON形式のデータをチャット用に.jsonlに変換し、GPT-4のCode Interpreterで10,000行を抽出、そこから1,000行を検証セットとして選択しました（訓練データと重複しないように）。これらの検証行はLangSmithにアップロードされ、自動評価に使用されました。

ファインチューニングと推論は8xA40クラスター上で行われ、全パラメータチューニング（LoRAではない）を実施しました。Replicateプラットフォームを使用し、Llama2-7b-chatは78k行、Llama2-13b-chatは10k行（コスト抑制のため）でファインチューニングしました。その後、LangSmith上で各モデルに1,000のプロンプトを実行し、GPT-4を判定基準としてモデルの出力を既知の正解と比較しました。このプロセスはシンプルなコードで実現できます。

発見と結論

結果によると、Llama2-13b-chat-ft-10k（130億パラメータ）は、より多くのデータを使用したLlama2-7b-chat-ft-78k（70億パラメータ）よりも高い精度を示しました。これにより、もし13bモデルが78kデータを使用した場合の性能が疑問視されます。精度は訓練データの量と品質に相関する可能性が高いです。また、7bモデルは応答時間（p50およびp99）で優れていましたが、13bモデルの精度はGPT-3.5-turbo-baseに近く、最適化されたオープンソースモデルが既存のクローズドソースモデルに匹敵する可能性を示しています。

結論として、LangSmithはオープンソース・クローズドソースを問わずあらゆるモデルをサポートし、データのアップロード、テスト、自動評価を統合することでモデル選定プロセスを大幅に簡素化します。著者は自社のChatOpenSourceが企業向けに完全データプライベートなチャット代替ソリューションを提供していることも紹介しています。