5个用于智能体工具调用的小型语言模型
本文介绍了五个支持工具调用的小型语言模型:SmolLM3-3B、Qwen3-4B-Instruct-2507、Phi-3-mini-4k-instruct、Gemma-4-E2B-it和Mistral-7B-Instruct-v0.3。这些模型体积小、权重开放,却具备结构化的工具调用能力,适用于资源受限的环境。
文章情报
要点
- SmolLM3-3B支持JSON/XML和Python两种工具调用接口,上下文长度可达128K。
- Qwen3-4B-Instruct-2507原生支持工具调用,推荐通过Qwen-Agent框架使用。
- Phi-3-mini-4k-instruct以3.8B参数实现接近GPT-3.5的性能,MIT许可。
- Gemma-4-E2B-it采用混合注意力机制和逐层嵌入,仅需1.5GB内存即可运行。
为什么重要
这条新闻值得关注,因为SmolLM3-3B支持JSON/XML和Python两种工具调用接口,上下文长度可达128K。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
智能体AI系统依赖于模型可靠地调用工具的能力——选择正确的函数、正确格式化参数,并将结果集成到多步骤工作流中。大型前沿模型如ChatGPT、Claude和Gemini在这方面表现出色,但它们在成本、延迟和硬件要求上存在权衡,使得许多实际部署不切实际。小型语言模型已经很好地缩小了这一差距,现在有几种紧凑、开放权重的选项提供一流的工具调用支持,无需数据中心即可运行。
本文按字母顺序介绍了五个用于智能体工具调用的小型语言模型。为方便和一致性起见,所有模型链接均指向Hugging Face上托管的模型。
**1. SmolLM3-3B**
由Hugging Face开发,于2025年7月8日发布。该模型是一个拥有3B参数的解码器仅含Transformer,采用分组查询注意力(GQA)和无位置嵌入(NoPE),基于11.2T个token进行预训练。它支持双重模式推理(思考/不思考切换)、6种语言,并具备64K原生上下文长度(通过YaRN可扩展至128K)。SmolLM3支持两种不同的工具调用接口:通过xml_tools的JSON/XML blob和通过python_tools的Python风格函数调用,使其非常灵活地适用于智能体管道和检索增强生成(RAG)系统。该模型完全开源,包括权重、数据集和训练代码,非常适合在受限硬件(如边缘设备或低VRAM机器)上构建聊天机器人、RAG系统和代码助手。
**2. Qwen3-4B-Instruct-2507**
由阿里巴巴Qwen团队开发,于2025年8月6日发布。这是Qwen3-4B非思考模式的更新版本,在指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用等通用能力上有显著提升。该模型拥有4.0B总参数(3.6B非嵌入),基于36层Transformer,采用GQA(32个查询头、8个键/值头),原生支持262,144 token的上下文长度。这个非思考变体针对直接、快速响应的用例进行了优化,适合聊天机器人、客户支持和工具调用智能体。Qwen3在工具调用能力上表现出色,阿里巴巴推荐使用Qwen-Agent框架,该框架内部封装了工具调用模板和解析器,降低了编码复杂度,并支持MCP服务器配置文件。
**3. Phi-3-mini-4k-instruct**
由微软开发,于2024年4月发布。这是一个3.8B参数的轻量级、最先进的开源模型,使用Phi-3数据集训练,包括合成数据和经过筛选的公开网络数据,专注于高质量和推理密集型特性。模型经过SFT和DPO后训练,具备工具调用能力,通过聊天模板实现(需Hugging Face transformers ≥ 4.41.2)。Phi-3-mini在发布时以其能在智能手机上运行且性能与GPT-3.5相媲美而著称。该模型主要用于内存和计算受限的环境、延迟敏感场景以及需要强推理(尤其是数学和逻辑)的任务。尽管上下文窗口仅为4K token,但MIT许可证使其成为最宽松许可的选择之一,其强大的通用推理能力使其成为商业应用微调的热门基础模型。
**4. Gemma-4-E2B-it**
由Google DeepMind开发,于2026年4月2日发布。该模型有效参数为2.3B(含嵌入共5.1B),采用密集架构、混合注意力机制(滑动窗口+全局)和逐层嵌入(PLE)。它支持文本、图像、音频(≤30秒)和视频(作为帧)多模态输入,并支持35种以上语言。Gemma-4-E2B-it原生支持函数调用,并针对边缘设备进行了优化,可在量化后仅1.5GB内存下运行。该模型采用Apache 2.0许可证,适合构建运行在边缘的多模态智能体应用。
**5. Mistral-7B-Instruct-v0.3**
由Mistral AI开发,于2024年5月27日发布。这是Mistral-7B-v0.3的指令微调版本,有三个主要变化:词汇量扩展至32,768个token、支持v3分词器、以及支持函数调用。模型采用GQA和滑动窗口注意力(SWA),有效处理32,768 token的上下文。函数调用功能通过扩展词汇表实现,包括TOOL_CALLS、AVAILABLE_TOOLS和TOOL_RESULTS等专用token。作为本综述中最大的模型(7B参数),Mistral-7B-Instruct-v0.3在通用指令遵循性能方面表现最佳,已成为行业标准主力模型,广泛支持Ollama、vLLM等推理平台。
这五个模型涵盖了不同的架构、参数规模、上下文窗口和发布日期,但共享一个重要特征:它们都在紧凑、开放权重的包中支持结构化工具调用。从Hugging Face完全透明的SmolLM3到Google DeepMind多模态边缘优化的Gemma 4 E2B,这些模型表明,能力强大的智能体模型不再需要大规模基础设施和前沿模型来部署。无论您的优先考虑是设备端推理、长上下文处理、多语言支持还是最宽松的许可证,这个列表中都值得探索的模型。