2026-05-14 20:00 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

5个用于智能体工具调用的小型语言模型

本文介绍了五个支持工具调用的小型语言模型：SmolLM3-3B、Qwen3-4B-Instruct-2507、Phi-3-mini-4k-instruct、Gemma-4-E2B-it和Mistral-7B-Instruct-v0.3。这些模型体积小、权重开放，却具备结构化的工具调用能力，适用于资源受限的环境。

来源KDnuggets作者: Matthew Mayo

智能体AI系统依赖于模型可靠地调用工具的能力——选择正确的函数、正确格式化参数，并将结果集成到多步骤工作流中。大型前沿模型如ChatGPT、Claude和Gemini在这方面表现出色，但它们在成本、延迟和硬件要求上存在权衡，使得许多实际部署不切实际。小型语言模型已经很好地缩小了这一差距，现在有几种紧凑、开放权重的选项提供一流的工具调用支持，无需数据中心即可运行。

本文按字母顺序介绍了五个用于智能体工具调用的小型语言模型。为方便和一致性起见，所有模型链接均指向Hugging Face上托管的模型。

1. SmolLM3-3B

由Hugging Face开发，于2025年7月8日发布。该模型是一个拥有3B参数的解码器仅含Transformer，采用分组查询注意力（GQA）和无位置嵌入（NoPE），基于11.2T个token进行预训练。它支持双重模式推理（思考/不思考切换）、6种语言，并具备64K原生上下文长度（通过YaRN可扩展至128K）。SmolLM3支持两种不同的工具调用接口：通过xml_tools的JSON/XML blob和通过python_tools的Python风格函数调用，使其非常灵活地适用于智能体管道和检索增强生成（RAG）系统。该模型完全开源，包括权重、数据集和训练代码，非常适合在受限硬件（如边缘设备或低VRAM机器）上构建聊天机器人、RAG系统和代码助手。

2. Qwen3-4B-Instruct-2507

由阿里巴巴Qwen团队开发，于2025年8月6日发布。这是Qwen3-4B非思考模式的更新版本，在指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用等通用能力上有显著提升。该模型拥有4.0B总参数（3.6B非嵌入），基于36层Transformer，采用GQA（32个查询头、8个键/值头），原生支持262,144 token的上下文长度。这个非思考变体针对直接、快速响应的用例进行了优化，适合聊天机器人、客户支持和工具调用智能体。Qwen3在工具调用能力上表现出色，阿里巴巴推荐使用Qwen-Agent框架，该框架内部封装了工具调用模板和解析器，降低了编码复杂度，并支持MCP服务器配置文件。

3. Phi-3-mini-4k-instruct

由微软开发，于2024年4月发布。这是一个3.8B参数的轻量级、最先进的开源模型，使用Phi-3数据集训练，包括合成数据和经过筛选的公开网络数据，专注于高质量和推理密集型特性。模型经过SFT和DPO后训练，具备工具调用能力，通过聊天模板实现（需Hugging Face transformers ≥ 4.41.2）。Phi-3-mini在发布时以其能在智能手机上运行且性能与GPT-3.5相媲美而著称。该模型主要用于内存和计算受限的环境、延迟敏感场景以及需要强推理（尤其是数学和逻辑）的任务。尽管上下文窗口仅为4K token，但MIT许可证使其成为最宽松许可的选择之一，其强大的通用推理能力使其成为商业应用微调的热门基础模型。

4. Gemma-4-E2B-it

由Google DeepMind开发，于2026年4月2日发布。该模型有效参数为2.3B（含嵌入共5.1B），采用密集架构、混合注意力机制（滑动窗口+全局）和逐层嵌入（PLE）。它支持文本、图像、音频（≤30秒）和视频（作为帧）多模态输入，并支持35种以上语言。Gemma-4-E2B-it原生支持函数调用，并针对边缘设备进行了优化，可在量化后仅1.5GB内存下运行。该模型采用Apache 2.0许可证，适合构建运行在边缘的多模态智能体应用。

5. Mistral-7B-Instruct-v0.3

由Mistral AI开发，于2024年5月27日发布。这是Mistral-7B-v0.3的指令微调版本，有三个主要变化：词汇量扩展至32,768个token、支持v3分词器、以及支持函数调用。模型采用GQA和滑动窗口注意力（SWA），有效处理32,768 token的上下文。函数调用功能通过扩展词汇表实现，包括TOOL_CALLS、AVAILABLE_TOOLS和TOOL_RESULTS等专用token。作为本综述中最大的模型（7B参数），Mistral-7B-Instruct-v0.3在通用指令遵循性能方面表现最佳，已成为行业标准主力模型，广泛支持Ollama、vLLM等推理平台。

这五个模型涵盖了不同的架构、参数规模、上下文窗口和发布日期，但共享一个重要特征：它们都在紧凑、开放权重的包中支持结构化工具调用。从Hugging Face完全透明的SmolLM3到Google DeepMind多模态边缘优化的Gemma 4 E2B，这些模型表明，能力强大的智能体模型不再需要大规模基础设施和前沿模型来部署。无论您的优先考虑是设备端推理、长上下文处理、多语言支持还是最宽松的许可证，这个列表中都值得探索的模型。