AI News HubLIVE
站内改写

5個用於智慧體工具呼叫的小型語言模型

本文介紹了五個支援工具呼叫的小型語言模型:SmolLM3-3B、Qwen3-4B-Instruct-2507、Phi-3-mini-4k-instruct、Gemma-4-E2B-it和Mistral-7B-Instruct-v0.3。這些模型體積小、權重開放,卻具備結構化的工具呼叫能力,適用於資源受限的環境。

文章情報

工程師中級

要點

  • SmolLM3-3B支援JSON/XML和Python兩種工具呼叫介面,上下文長度可達128K。
  • Qwen3-4B-Instruct-2507原生支援工具呼叫,推薦透過Qwen-Agent框架使用。
  • Phi-3-mini-4k-instruct以3.8B引數實現接近GPT-3.5的效能,MIT許可。
  • Gemma-4-E2B-it採用混合注意力機制和逐層嵌入,僅需1.5GB記憶體即可執行。

為什麼重要

這條新聞值得關注,因為SmolLM3-3B支援JSON/XML和Python兩種工具呼叫介面,上下文長度可達128K。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

智慧體AI系統依賴於模型可靠地呼叫工具的能力——選擇正確的函式、正確格式化引數,並將結果整合到多步驟工作流中。大型前沿模型如ChatGPT、Claude和Gemini在這方面表現出色,但它們在成本、延遲和硬體要求上存在權衡,使得許多實際部署不切實際。小型語言模型已經很好地縮小了這一差距,現在有幾種緊湊、開放權重的選項提供一流的工具呼叫支援,無需資料中心即可執行。

本文按字母順序介紹了五個用於智慧體工具呼叫的小型語言模型。為方便和一致性起見,所有模型連結均指向Hugging Face上託管的模型。

**1. SmolLM3-3B**

由Hugging Face開發,於2025年7月8日釋出。該模型是一個擁有3B引數的解碼器僅含Transformer,採用分組查詢注意力(GQA)和無位置嵌入(NoPE),基於11.2T個token進行預訓練。它支援雙重模式推理(思考/不思考切換)、6種語言,並具備64K原生上下文長度(透過YaRN可擴充套件至128K)。SmolLM3支援兩種不同的工具呼叫介面:透過xml_tools的JSON/XML blob和透過python_tools的Python風格函式呼叫,使其非常靈活地適用於智慧體管道和檢索增強生成(RAG)系統。該模型完全開源,包括權重、資料集和訓練程式碼,非常適合在受限硬體(如邊緣裝置或低VRAM機器)上構建聊天機器人、RAG系統和程式碼助手。

**2. Qwen3-4B-Instruct-2507**

由阿里巴巴Qwen團隊開發,於2025年8月6日釋出。這是Qwen3-4B非思考模式的更新版本,在指令遵循、邏輯推理、文本理解、數學、科學、編碼和工具使用等通用能力上有顯著提升。該模型擁有4.0B總引數(3.6B非嵌入),基於36層Transformer,採用GQA(32個查詢頭、8個鍵/值頭),原生支援262,144 token的上下文長度。這個非思考變體針對直接、快速響應的用例進行了最佳化,適合聊天機器人、客戶支援和工具呼叫智慧體。Qwen3在工具呼叫能力上表現出色,阿里巴巴推薦使用Qwen-Agent框架,該框架內部封裝了工具呼叫模板和解析器,降低了編碼複雜度,並支援MCP伺服器配置檔案。

**3. Phi-3-mini-4k-instruct**

由微軟開發,於2024年4月釋出。這是一個3.8B引數的輕量級、最先進的開源模型,使用Phi-3資料集訓練,包括合成資料和經過篩選的公開網路資料,專注於高質量和推理密集型特性。模型經過SFT和DPO後訓練,具備工具呼叫能力,透過聊天模板實現(需Hugging Face transformers ≥ 4.41.2)。Phi-3-mini在釋出時以其能在智慧手機上執行且效能與GPT-3.5相媲美而著稱。該模型主要用於記憶體和計算受限的環境、延遲敏感場景以及需要強推理(尤其是數學和邏輯)的任務。儘管上下文視窗僅為4K token,但MIT許可證使其成為最寬鬆許可的選擇之一,其強大的通用推理能力使其成為商業應用微調的熱門基礎模型。

**4. Gemma-4-E2B-it**

由Google DeepMind開發,於2026年4月2日釋出。該模型有效引數為2.3B(含嵌入共5.1B),採用密集架構、混合注意力機制(滑動視窗+全域性)和逐層嵌入(PLE)。它支援文本、影像、音訊(≤30秒)和影片(作為幀)多模態輸入,並支援35種以上語言。Gemma-4-E2B-it原生支援函式呼叫,並針對邊緣裝置進行了最佳化,可在量化後僅1.5GB記憶體下執行。該模型採用Apache 2.0許可證,適合構建執行在邊緣的多模態智慧體應用。

**5. Mistral-7B-Instruct-v0.3**

由Mistral AI開發,於2024年5月27日釋出。這是Mistral-7B-v0.3的指令微調版本,有三個主要變化:詞彙量擴充套件至32,768個token、支援v3分詞器、以及支援函式呼叫。模型採用GQA和滑動視窗注意力(SWA),有效處理32,768 token的上下文。函式呼叫功能透過擴充套件詞彙表實現,包括TOOL_CALLS、AVAILABLE_TOOLS和TOOL_RESULTS等專用token。作為本綜述中最大的模型(7B引數),Mistral-7B-Instruct-v0.3在通用指令遵循效能方面表現最佳,已成為行業標準主力模型,廣泛支援Ollama、vLLM等推理平臺。

這五個模型涵蓋了不同的架構、引數規模、上下文視窗和釋出日期,但共享一個重要特徵:它們都在緊湊、開放權重的包中支援結構化工具呼叫。從Hugging Face完全透明的SmolLM3到Google DeepMind多模態邊緣最佳化的Gemma 4 E2B,這些模型表明,能力強大的智慧體模型不再需要大規模基礎設施和前沿模型來部署。無論您的優先考慮是裝置端推理、長上下文處理、多語言支援還是最寬鬆的許可證,這個列表中都值得探索的模型。