2026-06-30 10:27 UTC+9サイト内リライト3 分で読了更新: 2026-07-02 02:35 UTC+9

エージェントツール使用のベンチマーク

LangChain は、LLM のツール使用能力を評価するための4つの新しいテスト環境を公開しました。関数呼び出し、計画、推論などのスキルをカバーします。テストでは、GPT-4、Claude 2.1、GPT-3.5、およびオープンソースモデル（Mistral 7b など）を比較。主な発見：GPT-4 は関係データタスクで最高得点だが、長い軌道では失敗；Claude 2.1 は3つのタスクで GPT-4 と同等；オープンソースモデルは複数関数の組み合わせが苦手；計画は依然として困難。

ソースLangChain Blog

記事インテリジェンス

エンジニア上級

要点

LangChain が LLM のツール使用を評価する4つのベンチマークを発表（タイプライター（単一・26ツール）、関係データ、マルチバース算数）。
GPT-4 は関係データタスクで最高得点だが、単純な長期的タスクでも失敗。
Claude 2.1 は4タスク中3つで GPT-4 と誤差範囲内の性能。
オープンソースモデルは複数関数呼び出しの構成が課題；ステップ数が多いと計画失敗が増加。

重要な理由

このニュースが重要なのは、LangChain が LLM のツール使用を評価する4つのベンチマークを発表（タイプライター（単一・26ツール）、関係データ、マルチバース算数）ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

LangChain は2023年12月19日、大規模言語モデル（LLM）のツール使用能力を標準化された方法で評価するための4つの新しいテスト環境をリリースしました。これらのベンチマークは、エージェントワークフローにおいて重要な能力である計画とタスク分解、関数呼び出し、および必要に応じて事前学習バイアスを克服する能力に焦点を当てています。

4つのテストタスク

タイプライター（単一ツール）：エージェントは1つのツールを使用して、指定された単語の各文字を順番に入力します。簡単なタスクに見えますが、GPT-4 でさえ「keyboard」の入力を拒否したり、「head」という単語を認識できないなどの失敗が見られました。
タイプライター（26ツール）：エージェントは26のツール（アルファベット各文字に対応）から正しいものを選択して単語を入力します。このタスクは多くのモデルで異常な動作を引き起こし、パフォーマンスが大幅に低下しました。
関係データ：エージェントは3つの関係テーブルに基づいて質問に答える必要があります。これは実際のアプリケーションに最も近いタスクで、関数間の依存関係を理解する必要があります。例えば、「アリスは傘が必要か？」という質問に答えるには、ユーザー情報、ユーザーの位置、その位置の天気を順に問い合わせる必要があります。
マルチバース算数：エージェントはツールを使って算数の問題を解きますが、基礎となる数学のルールが少し変更されており、事前学習バイアスを克服できるかどうかをテストします。

テスト結果と主要な発見

実験では、OpenAI の GPT-3.5 および GPT-4（複数バージョン）、Anthropic の Claude 2.1、オープンソースモデルとして Anyscale が微調整した Mistral 7b や Fireworks.ai が微調整した Mixtral 8x7b などをテストしました。主な結果は以下の通りです：

GPT-4 は関係データタスクで最高のパフォーマンスを示し、20問中ほぼすべてに正解しましたが、「Frank」をユーザーではなく猫と誤認するなど、一部で失敗しました。
Claude 2.1 は3つのタスクで GPT-4 と誤差範囲内の性能でしたが、関係データタスクではやや劣りました。
GPT-3.5 はマルチバース算数で GPT-4 を上回りました。これは、GPT-4 の強い事前学習バイアスがルール変更への適応を妨げた可能性を示しています。
オープンソースモデルの差は顕著でした。Mistral 7b はツール呼び出しの形式は正しく出力できるものの、2回以上の関数呼び出しを確実に組み合わせることができませんでした。今後のオープンソースモデルの関数呼び出し改善は、関数構成に重点を置くべきです。
計画は依然として LLM の弱点です。タスクのステップ数が増えるにつれて失敗確率が直線的に上昇し、簡単なタスクでも同様です。

評価指標

研究では4つの指標を使用しました：

正解率：正解と比較（LLM を判断基準として使用）。
最終環境状態：最終的な世界状態が正しいかどうか。
中間ステップの正確性：関数呼び出しの順序が最適な系列と一致するか。
ステップ数比：実際のステップ数と期待されるステップ数の比。

示唆と推奨事項

モデルが訓練で獲得した超人知識は、新しいタスクに必ずしも転移しません。デプロイ前に、必要な行動パターンで LLM が優れているかを検証する必要があります。
計画は LLM にとって依然として困難であり、ステップ数が多いほど失敗確率が高まります。
関数呼び出しはスキーマの正確性を100％保証しますが、タスクの正確性を保証するものではありません。エージェント用にモデルを微調整する場合は、マルチステップの軌跡で訓練することが不可欠です。

全体として、これらのベンチマークは、現在の LLM のツール使用における可能性と限界を明らかにし、開発者がモデルを選択しエージェントワークフローを設計するための重要な参考情報を提供します。