2026-05-14 21:00 UTC+9サイト内リライト4 分で読了更新: 2026-06-30 22:03 UTC+9

エージェントツール呼び出しのための5つの小型言語モデル

本記事では、構造化ツール呼び出しをサポートする5つの小型言語モデル（SmolLM3-3B、Qwen3-4B-Instruct-2507、Phi-3-mini-4k-instruct、Gemma-4-E2B-it、Mistral-7B-Instruct-v0.3）を紹介します。これらのコンパクトでオープンなモデルは、大規模インフラを必要とせずにエージェントワークフローを実現します。

ソースKDnuggets著者: Matthew Mayo

記事インテリジェンス

エンジニア中級

要点

SmolLM3-3BはJSON/XMLとPythonの2つのツール呼び出しインターフェースを提供し、最大128Kのコンテキスト長をサポートします（2025年7月、Hugging Face）。
Qwen3-4B-Instruct-2507（2025年8月）はQwen-Agentフレームワークを介したネイティブ関数呼び出しをサポートし、262Kのコンテキスト長を持ちます。
Phi-3-mini-4k-instruct（2024年4月）は3.8Bパラメータのコンパクトモデルで、GPT-3.5に匹敵する性能を持ち、MITライセンスとチャットテンプレートベースのツール呼び出しを特徴とします。
Gemma-4-E2B-it（2026年4月）はマルチモーダル入力をサポートし、1.5GB未満のメモリで動作し、Apache 2.0ライセンスです。

重要な理由

このニュースが重要なのは、SmolLM3-3BはJSON/XMLとPythonの2つのツール呼び出しインターフェースを提供し、最大128Kのコンテキスト長をサポートします（2025年7月、Hugging Face）ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

エージェントAIシステムは、モデルがツールを確実に呼び出す能力に依存しています。適切な関数を選択し、引数を正しくフォーマットし、結果をマルチステップワークフローに統合する必要があります。ChatGPT、Claude、Geminiなどの大規模フロンティアモデルはこの処理をうまく行いますが、コスト、レイテンシ、ハードウェア要件にトレードオフがあり、多くの実世界の展開には非現実的です。小型言語モデルはこのギャップをうまく埋めており、現在ではデータセンターを必要とせずに実行できる、コンパクトでオープンウェイトのオプションがいくつか提供されており、一流のツール呼び出しサポートを実現しています。

この記事では、エージェントツール呼び出しのための5つの小型言語モデルをアルファベット順に紹介します。便宜上と一貫性のため、すべてのモデルリンクはHugging Faceでホストされているものを指します。

1. SmolLM3-3B

開発元：Hugging Face、リリース日：2025年7月8日。このモデルは3BパラメータのデコーダのみのTransformerで、グループ化クエリアテンション（GQA）と位置埋め込みなし（NoPE）を採用し、11.2Tトークンで事前学習されています。デュアルモード推論（思考/非思考トグル）、6言語、および64Kのネイティブコンテキスト長（YaRNで128Kまで拡張可能）をサポートします。SmolLM3は2つの異なるツール呼び出しインターフェースをサポートしています：xml_toolsによるJSON/XMLブロブとpython_toolsによるPythonスタイルの関数呼び出しです。これにより、エージェントパイプラインやRAGシステムに非常に柔軟に対応できます。ウェイト、データセット、トレーニングコードを含む完全オープンリリースであり、エッジデバイスや低VRAMマシンなどの制約のあるハードウェア上のチャットボット、RAGシステム、コードアシスタントに最適です。

2. Qwen3-4B-Instruct-2507

開発元：Alibaba（Qwenチーム）、リリース日：2025年8月6日。これはQwen3-4B非思考モードの更新バージョンで、命令追従、論理的推論、テキスト理解、数学、科学、コーディング、ツール使用などの汎用能力が大幅に向上しています。モデルは総パラメータ4.0B（非埋め込み3.6B）で、36層のTransformer、GQA（32クエリヘッド、8キー/バリューヘッド）を採用し、ネイティブで262,144トークンのコンテキスト長をサポートします。この非思考バリアントは直接的で高速な応答のユースケース向けに最適化されており、チャットボット、カスタマーサポート、低レイテンシが重要なツール呼び出しエージェントに適しています。Qwen3はツール呼び出し能力に優れており、AlibabaはQwen-Agentフレームワークの使用を推奨しており、これによりツール呼び出しテンプレートとパーサーが内部でカプセル化され、コーディングの複雑さが軽減され、MCPサーバー設定ファイルもサポートされます。

3. Phi-3-mini-4k-instruct

開発元：Microsoft、リリース日：2024年4月。これは3.8Bパラメータの軽量で最先端のオープンモデルで、合成データとフィルタリングされた公開Webデータを含むPhi-3データセットでトレーニングされ、高品質と推論密度の特性に焦点を当てています。モデルはSFTとDPOによるポストトレーニングを受けており、チャットテンプレートを介したツール呼び出しをサポートしています（Hugging Face transformers ≥ 4.41.2が必要）。Phi-3-miniはそのローンチ時に、スマートフォン上で実行可能でありながら、ベンチマークでGPT-3.5に匹敵する性能を持つことで注目されました。このモデルは主にメモリと計算が制約された環境、レイテンシが重要なシナリオ、および強力な推論（特に数学と論理）を必要とするタスクを対象としています。4Kトークンのコンテキストウィンドウに制限されていますが、MITライセンスにより最も寛容なライセンスオプションの1つであり、その強力な汎用推論能力は商用アプリケーションでのファインチューニング用の人気ベースとなっています。

4. Gemma-4-E2B-it

開発元：Google DeepMind、リリース日：2026年4月2日。有効パラメータは2.3B（埋め込み込みで5.1B）で、高密度アーキテクチャ、ハイブリッドアテンション（スライディングウィンドウ+グローバル）、および層ごとの埋め込み（PLE）を採用しています。テキスト、画像、音声（≤30秒）、ビデオ（フレームとして）のマルチモーダル入力をサポートし、35以上の言語に対応しています。Gemma-4-E2B-itはネイティブ関数呼び出しをサポートし、エッジデバイス向けに最適化されており、量子化後1.5GB未満のメモリで実行可能です。Apache 2.0ライセンスで提供されており、エッジ上で完全に実行されるマルチモーダルエージェントアプリケーションを構築する開発者にとって魅力的なオプションです。

5. Mistral-7B-Instruct-v0.3

開発元：Mistral AI、リリース日：2024年5月27日。これはMistral-7B-v0.3の命令ファインチューニングバージョンで、v0.2からの3つの主要な変更があります：語彙を32,768トークンに拡張、v3トークナイザーのサポート、および関数呼び出しのサポートです。モデルはGQAとスライディングウィンドウアテンション（SWA）を採用し、32,768トークンのコンテキストを効率的に処理します。関数呼び出し機能は、TOOL_CALLS、AVAILABLE_TOOLS、TOOL_RESULTSなどの専用トークンを含む拡張語彙によって可能になります。このラウンドアップの中で最大のモデル（7Bパラメータ）であり、Mistral-7B-Instruct-v0.3はグループの中で最高の一般的な命令追従性能を提供し、Ollama、vLLM、およびほとんどの推論プラットフォームで広く利用可能な業界標準のワークホースとなっています。

この5つのモデルは、アーキテクチャ、パラメータ数、コンテキストウィンドウ、リリース日において多様ですが、重要な共通点があります：すべてコンパクトでオープンウェイトのパッケージで構造化ツール呼び出しをサポートしていることです。Hugging Faceの完全に透明なSmolLM3からGoogle DeepMindのマルチモーダルエッジ最適化Gemma 4 E2Bまで、この選択は、能力のあるエージェントモデルを展開するのに大規模なインフラストラクチャやフロンティアモデルがもはや必要ないことを示しています。オンデバイス推論、長いコンテキスト処理、多言語カバレッジ、または最も寛容なライセンスのいずれを優先する場合でも、このリストには探求する価値のあるモデルがあります。