2026-05-14 20:00 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

5個用於智能體工具調用的小型語言模型

本文介紹了五個支持工具調用的小型語言模型：SmolLM3-3B、Qwen3-4B-Instruct-2507、Phi-3-mini-4k-instruct、Gemma-4-E2B-it和Mistral-7B-Instruct-v0.3。這些模型體積小、權重開放，卻具備結構化的工具調用能力，適用於資源受限的環境。

來源KDnuggets作者: Matthew Mayo

智能體AI系統依賴於模型可靠地調用工具的能力——選擇正確的函數、正確格式化參數，並將結果集成到多步驟工作流中。大型前沿模型如ChatGPT、Claude和Gemini在這方面表現出色，但它們在成本、延遲和硬件要求上存在權衡，使得許多實際部署不切實際。小型語言模型已經很好地縮小了這一差距，現在有幾種緊湊、開放權重的選項提供一流的工具調用支持，無需數據中心即可運行。

本文按字母順序介紹了五個用於智能體工具調用的小型語言模型。為方便和一致性起見，所有模型鏈接均指向Hugging Face上託管的模型。

1. SmolLM3-3B

由Hugging Face開發，於2025年7月8日發佈。該模型是一個擁有3B參數的解碼器僅含Transformer，採用分組查詢注意力（GQA）和無位置嵌入（NoPE），基於11.2T個token進行預訓練。它支持雙重模式推理（思考/不思考切換）、6種語言，並具備64K原生上下文長度（通過YaRN可擴展至128K）。SmolLM3支持兩種不同的工具調用接口：通過xml_tools的JSON/XML blob和通過python_tools的Python風格函數調用，使其非常靈活地適用於智能體管道和檢索增強生成（RAG）系統。該模型完全開源，包括權重、數據集和訓練代碼，非常適合在受限硬件（如邊緣設備或低VRAM機器）上構建聊天機器人、RAG系統和代碼助手。

2. Qwen3-4B-Instruct-2507

由阿里巴巴Qwen團隊開發，於2025年8月6日發佈。這是Qwen3-4B非思考模式的更新版本，在指令遵循、邏輯推理、文本理解、數學、科學、編碼和工具使用等通用能力上有顯著提升。該模型擁有4.0B總參數（3.6B非嵌入），基於36層Transformer，採用GQA（32個查詢頭、8個鍵/值頭），原生支持262,144 token的上下文長度。這個非思考變體針對直接、快速響應的用例進行了優化，適合聊天機器人、客户支持和工具調用智能體。Qwen3在工具調用能力上表現出色，阿里巴巴推薦使用Qwen-Agent框架，該框架內部封裝了工具調用模板和解析器，降低了編碼複雜度，並支持MCP服務器配置文件。

3. Phi-3-mini-4k-instruct

由微軟開發，於2024年4月發佈。這是一個3.8B參數的輕量級、最先進的開源模型，使用Phi-3數據集訓練，包括合成數據和經過篩選的公開網絡數據，專注於高質量和推理密集型特性。模型經過SFT和DPO後訓練，具備工具調用能力，通過聊天模板實現（需Hugging Face transformers ≥ 4.41.2）。Phi-3-mini在發佈時以其能在智能手機上運行且性能與GPT-3.5相媲美而著稱。該模型主要用於內存和計算受限的環境、延遲敏感場景以及需要強推理（尤其是數學和邏輯）的任務。儘管上下文窗口僅為4K token，但MIT許可證使其成為最寬鬆許可的選擇之一，其強大的通用推理能力使其成為商業應用微調的熱門基礎模型。

4. Gemma-4-E2B-it

由Google DeepMind開發，於2026年4月2日發佈。該模型有效參數為2.3B（含嵌入共5.1B），採用密集架構、混合注意力機制（滑動窗口+全局）和逐層嵌入（PLE）。它支持文本、圖像、音頻（≤30秒）和視頻（作為幀）多模態輸入，並支持35種以上語言。Gemma-4-E2B-it原生支持函數調用，並針對邊緣設備進行了優化，可在量化後僅1.5GB內存下運行。該模型採用Apache 2.0許可證，適合構建運行在邊緣的多模態智能體應用。

5. Mistral-7B-Instruct-v0.3

由Mistral AI開發，於2024年5月27日發佈。這是Mistral-7B-v0.3的指令微調版本，有三個主要變化：詞彙量擴展至32,768個token、支持v3分詞器、以及支持函數調用。模型採用GQA和滑動窗口注意力（SWA），有效處理32,768 token的上下文。函數調用功能通過擴展詞彙表實現，包括TOOL_CALLS、AVAILABLE_TOOLS和TOOL_RESULTS等專用token。作為本綜述中最大的模型（7B參數），Mistral-7B-Instruct-v0.3在通用指令遵循性能方面表現最佳，已成為行業標準主力模型，廣泛支持Ollama、vLLM等推理平台。

這五個模型涵蓋了不同的架構、參數規模、上下文窗口和發佈日期，但共享一個重要特徵：它們都在緊湊、開放權重的包中支持結構化工具調用。從Hugging Face完全透明的SmolLM3到Google DeepMind多模態邊緣優化的Gemma 4 E2B，這些模型表明，能力強大的智能體模型不再需要大規模基礎設施和前沿模型來部署。無論您的優先考慮是設備端推理、長上下文處理、多語言支持還是最寬鬆的許可證，這個列表中都值得探索的模型。