5個用於智能體工具調用的小型語言模型
本文介紹了五個支持工具調用的小型語言模型:SmolLM3-3B、Qwen3-4B-Instruct-2507、Phi-3-mini-4k-instruct、Gemma-4-E2B-it和Mistral-7B-Instruct-v0.3。這些模型體積小、權重開放,卻具備結構化的工具調用能力,適用於資源受限的環境。
文章情報
要點
- SmolLM3-3B支持JSON/XML和Python兩種工具調用接口,上下文長度可達128K。
- Qwen3-4B-Instruct-2507原生支持工具調用,推薦通過Qwen-Agent框架使用。
- Phi-3-mini-4k-instruct以3.8B參數實現接近GPT-3.5的性能,MIT許可。
- Gemma-4-E2B-it採用混合注意力機制和逐層嵌入,僅需1.5GB內存即可運行。
為甚麼重要
這條新聞值得關注,因為SmolLM3-3B支持JSON/XML和Python兩種工具調用接口,上下文長度可達128K。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
智能體AI系統依賴於模型可靠地調用工具的能力——選擇正確的函數、正確格式化參數,並將結果集成到多步驟工作流中。大型前沿模型如ChatGPT、Claude和Gemini在這方面表現出色,但它們在成本、延遲和硬件要求上存在權衡,使得許多實際部署不切實際。小型語言模型已經很好地縮小了這一差距,現在有幾種緊湊、開放權重的選項提供一流的工具調用支持,無需數據中心即可運行。
本文按字母順序介紹了五個用於智能體工具調用的小型語言模型。為方便和一致性起見,所有模型鏈接均指向Hugging Face上託管的模型。
**1. SmolLM3-3B**
由Hugging Face開發,於2025年7月8日發佈。該模型是一個擁有3B參數的解碼器僅含Transformer,採用分組查詢注意力(GQA)和無位置嵌入(NoPE),基於11.2T個token進行預訓練。它支持雙重模式推理(思考/不思考切換)、6種語言,並具備64K原生上下文長度(通過YaRN可擴展至128K)。SmolLM3支持兩種不同的工具調用接口:通過xml_tools的JSON/XML blob和通過python_tools的Python風格函數調用,使其非常靈活地適用於智能體管道和檢索增強生成(RAG)系統。該模型完全開源,包括權重、數據集和訓練代碼,非常適合在受限硬件(如邊緣設備或低VRAM機器)上構建聊天機器人、RAG系統和代碼助手。
**2. Qwen3-4B-Instruct-2507**
由阿里巴巴Qwen團隊開發,於2025年8月6日發佈。這是Qwen3-4B非思考模式的更新版本,在指令遵循、邏輯推理、文本理解、數學、科學、編碼和工具使用等通用能力上有顯著提升。該模型擁有4.0B總參數(3.6B非嵌入),基於36層Transformer,採用GQA(32個查詢頭、8個鍵/值頭),原生支持262,144 token的上下文長度。這個非思考變體針對直接、快速響應的用例進行了優化,適合聊天機器人、客户支持和工具調用智能體。Qwen3在工具調用能力上表現出色,阿里巴巴推薦使用Qwen-Agent框架,該框架內部封裝了工具調用模板和解析器,降低了編碼複雜度,並支持MCP服務器配置文件。
**3. Phi-3-mini-4k-instruct**
由微軟開發,於2024年4月發佈。這是一個3.8B參數的輕量級、最先進的開源模型,使用Phi-3數據集訓練,包括合成數據和經過篩選的公開網絡數據,專注於高質量和推理密集型特性。模型經過SFT和DPO後訓練,具備工具調用能力,通過聊天模板實現(需Hugging Face transformers ≥ 4.41.2)。Phi-3-mini在發佈時以其能在智能手機上運行且性能與GPT-3.5相媲美而著稱。該模型主要用於內存和計算受限的環境、延遲敏感場景以及需要強推理(尤其是數學和邏輯)的任務。儘管上下文窗口僅為4K token,但MIT許可證使其成為最寬鬆許可的選擇之一,其強大的通用推理能力使其成為商業應用微調的熱門基礎模型。
**4. Gemma-4-E2B-it**
由Google DeepMind開發,於2026年4月2日發佈。該模型有效參數為2.3B(含嵌入共5.1B),採用密集架構、混合注意力機制(滑動窗口+全局)和逐層嵌入(PLE)。它支持文本、圖像、音頻(≤30秒)和視頻(作為幀)多模態輸入,並支持35種以上語言。Gemma-4-E2B-it原生支持函數調用,並針對邊緣設備進行了優化,可在量化後僅1.5GB內存下運行。該模型採用Apache 2.0許可證,適合構建運行在邊緣的多模態智能體應用。
**5. Mistral-7B-Instruct-v0.3**
由Mistral AI開發,於2024年5月27日發佈。這是Mistral-7B-v0.3的指令微調版本,有三個主要變化:詞彙量擴展至32,768個token、支持v3分詞器、以及支持函數調用。模型採用GQA和滑動窗口注意力(SWA),有效處理32,768 token的上下文。函數調用功能通過擴展詞彙表實現,包括TOOL_CALLS、AVAILABLE_TOOLS和TOOL_RESULTS等專用token。作為本綜述中最大的模型(7B參數),Mistral-7B-Instruct-v0.3在通用指令遵循性能方面表現最佳,已成為行業標準主力模型,廣泛支持Ollama、vLLM等推理平台。
這五個模型涵蓋了不同的架構、參數規模、上下文窗口和發佈日期,但共享一個重要特徵:它們都在緊湊、開放權重的包中支持結構化工具調用。從Hugging Face完全透明的SmolLM3到Google DeepMind多模態邊緣優化的Gemma 4 E2B,這些模型表明,能力強大的智能體模型不再需要大規模基礎設施和前沿模型來部署。無論您的優先考慮是設備端推理、長上下文處理、多語言支持還是最寬鬆的許可證,這個列表中都值得探索的模型。