2026-05-14 20:00 UTC+8站內改寫3 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

5個用於智慧體工具呼叫的小型語言模型

本文介紹了五個支援工具呼叫的小型語言模型：SmolLM3-3B、Qwen3-4B-Instruct-2507、Phi-3-mini-4k-instruct、Gemma-4-E2B-it和Mistral-7B-Instruct-v0.3。這些模型體積小、權重開放，卻具備結構化的工具呼叫能力，適用於資源受限的環境。

來源KDnuggets作者: Matthew Mayo

智慧體AI系統依賴於模型可靠地呼叫工具的能力——選擇正確的函式、正確格式化引數，並將結果整合到多步驟工作流中。大型前沿模型如ChatGPT、Claude和Gemini在這方面表現出色，但它們在成本、延遲和硬體要求上存在權衡，使得許多實際部署不切實際。小型語言模型已經很好地縮小了這一差距，現在有幾種緊湊、開放權重的選項提供一流的工具呼叫支援，無需資料中心即可執行。

本文按字母順序介紹了五個用於智慧體工具呼叫的小型語言模型。為方便和一致性起見，所有模型連結均指向Hugging Face上託管的模型。

1. SmolLM3-3B

由Hugging Face開發，於2025年7月8日釋出。該模型是一個擁有3B引數的解碼器僅含Transformer，採用分組查詢注意力（GQA）和無位置嵌入（NoPE），基於11.2T個token進行預訓練。它支援雙重模式推理（思考/不思考切換）、6種語言，並具備64K原生上下文長度（透過YaRN可擴充套件至128K）。SmolLM3支援兩種不同的工具呼叫介面：透過xml_tools的JSON/XML blob和透過python_tools的Python風格函式呼叫，使其非常靈活地適用於智慧體管道和檢索增強生成（RAG）系統。該模型完全開源，包括權重、資料集和訓練程式碼，非常適合在受限硬體（如邊緣裝置或低VRAM機器）上構建聊天機器人、RAG系統和程式碼助手。

2. Qwen3-4B-Instruct-2507

由阿里巴巴Qwen團隊開發，於2025年8月6日釋出。這是Qwen3-4B非思考模式的更新版本，在指令遵循、邏輯推理、文本理解、數學、科學、編碼和工具使用等通用能力上有顯著提升。該模型擁有4.0B總引數（3.6B非嵌入），基於36層Transformer，採用GQA（32個查詢頭、8個鍵/值頭），原生支援262,144 token的上下文長度。這個非思考變體針對直接、快速響應的用例進行了最佳化，適合聊天機器人、客戶支援和工具呼叫智慧體。Qwen3在工具呼叫能力上表現出色，阿里巴巴推薦使用Qwen-Agent框架，該框架內部封裝了工具呼叫模板和解析器，降低了編碼複雜度，並支援MCP伺服器配置檔案。

3. Phi-3-mini-4k-instruct

由微軟開發，於2024年4月釋出。這是一個3.8B引數的輕量級、最先進的開源模型，使用Phi-3資料集訓練，包括合成資料和經過篩選的公開網路資料，專注於高質量和推理密集型特性。模型經過SFT和DPO後訓練，具備工具呼叫能力，透過聊天模板實現（需Hugging Face transformers ≥ 4.41.2）。Phi-3-mini在釋出時以其能在智慧手機上執行且效能與GPT-3.5相媲美而著稱。該模型主要用於記憶體和計算受限的環境、延遲敏感場景以及需要強推理（尤其是數學和邏輯）的任務。儘管上下文視窗僅為4K token，但MIT許可證使其成為最寬鬆許可的選擇之一，其強大的通用推理能力使其成為商業應用微調的熱門基礎模型。

4. Gemma-4-E2B-it

由Google DeepMind開發，於2026年4月2日釋出。該模型有效引數為2.3B（含嵌入共5.1B），採用密集架構、混合注意力機制（滑動視窗+全域性）和逐層嵌入（PLE）。它支援文本、影像、音訊（≤30秒）和影片（作為幀）多模態輸入，並支援35種以上語言。Gemma-4-E2B-it原生支援函式呼叫，並針對邊緣裝置進行了最佳化，可在量化後僅1.5GB記憶體下執行。該模型採用Apache 2.0許可證，適合構建執行在邊緣的多模態智慧體應用。

5. Mistral-7B-Instruct-v0.3

由Mistral AI開發，於2024年5月27日釋出。這是Mistral-7B-v0.3的指令微調版本，有三個主要變化：詞彙量擴充套件至32,768個token、支援v3分詞器、以及支援函式呼叫。模型採用GQA和滑動視窗注意力（SWA），有效處理32,768 token的上下文。函式呼叫功能透過擴充套件詞彙表實現，包括TOOL_CALLS、AVAILABLE_TOOLS和TOOL_RESULTS等專用token。作為本綜述中最大的模型（7B引數），Mistral-7B-Instruct-v0.3在通用指令遵循效能方面表現最佳，已成為行業標準主力模型，廣泛支援Ollama、vLLM等推理平臺。

這五個模型涵蓋了不同的架構、引數規模、上下文視窗和釋出日期，但共享一個重要特徵：它們都在緊湊、開放權重的包中支援結構化工具呼叫。從Hugging Face完全透明的SmolLM3到Google DeepMind多模態邊緣最佳化的Gemma 4 E2B，這些模型表明，能力強大的智慧體模型不再需要大規模基礎設施和前沿模型來部署。無論您的優先考慮是裝置端推理、長上下文處理、多語言支援還是最寬鬆的許可證，這個列表中都值得探索的模型。