2026-05-21 20:00 UTC+8站内改写3 分钟阅读更新: 2026-06-30 21:03 UTC+8

当前Hugging Face上最佳的小型语言模型！

精选目前Hugging Face上最佳的小型语言模型，介绍每个模型的实际优势、支撑其性能的基准测试数据，以及快速上手的代码示例。

来源KDnuggets作者: Shittu Olumide

参数量是否决定一切？2025年初发布的一个40亿参数模型在标准推理基准上已经超越了比它大7倍的模型。例如，Google的Gemma 3 4B在GSM8K数学推理上达到了89.2%，而Microsoft的Phi-4-mini（3.8B）在ARC-C上取得83.7%，这是其整个参数量级别中的最高分。这些成绩过去只属于300亿参数以上的模型。因此，“我真的需要700亿参数模型吗？”这个问题值得重新思考。

本文中“小型”指参数量低于70亿的模型，这些模型可以在单个消费级GPU、笔记本电脑甚至现代智能手机上运行。这一阈值很重要，因为它区分了需要大型基础设施的模型和任何人都能实际部署的模型。无需云账单，无需等待API速率限制，只需一个本地运行的模型，完成实际工作。

为什么小型语言模型现在值得关注

大多数人直到最近都忽视小型模型，原因很简单：它们不够好。2022年的30亿参数模型在多步推理上挣扎，代码生成能力弱，输出平淡无奇。但这种声誉在模型悄然改进后延续了下来。有三个变化改变了轨迹：

更好的训练数据，而非更多数据。Microsoft训练Phi-4-mini用了5万亿Token，但重点是质量。合成数据密集推理，经过筛选的网络内容和结构化教育资料。这个赌注成功了。一个经过精心训练的3.8B模型表现优于粗糙训练的13B模型。Qwen3-0.6B仅6亿参数就支持超过100种语言，因为其训练语料库一开始就以此为目标。

从前沿模型蒸馏。DeepSeek-R1-Distill-Qwen-1.5B是一个15亿参数模型，通过从更大的推理模型输出中学习来推理。结果是一个微型模型可以逐步解决问题，这在两年前在如此小的规模上是不可能的。蒸馏现在是一种标准方法：将庞大教师模型的行为压缩到少量参数中。

架构改进。混合专家模型（MoE）改变了“参数量”的含义。Google的Gemma 3n E4B总参数量80亿，但每个Token只激活40亿；它运行的内存占用相当于40亿模型，同时利用了80亿模型的能力。混合注意力机制和更长的上下文窗口（128K现在甚至在5B以下模型中也很常见）进一步推动了能力，而没有增加模型大小。

基准术语速成

在进入模型列表之前，先了解一些术语。

MMLU-Pro：更难版本的大规模多任务语言理解测试，覆盖57个学科，50分以上值得注意，70分以上杰出。
GSM8K：8500道小学水平数学文字题，需多步推理，得分百分比。
HumanEval：代码生成测试，60%以上对5B以下模型令人印象深刻。
ARC-C：科学问题，测试常识和科学推理。

模型类型：基础模型（预测下一个Token）、指令模型（遵循指令）、思考模型（链式推理，精度高但慢）。量化（如Q4_K_M）减少内存使用约75%，保留90-95%质量。GGUF是用于llama.cpp的封装格式。

1. Qwen3.5-4B（阿里巴巴）

发布于2026年3月，是Qwen3.5系列的核心，从0.8B到9B，均采用Apache 2.0许可证。亮点是上下文窗口：原生支持262,144 Token，可扩展至一百万以上。模型默认以思考模式运行，可关闭以快速直接回答。

最佳用途：跨语言通用任务、指令遵循、长文档处理。

代码示例：

from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "Qwen/Qwen3.5-4B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype="auto", device_map="auto")
messages = [{"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "Explain the difference between supervised and unsupervised learning in simple terms."}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True, enable_thinking=False)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(**model_inputs, max_new_tokens=512)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):]
response = tokenizer.decode(output_ids, skip_special_tokens=True)
print(response)

2. Microsoft Phi-4-mini-instruct（3.8B）

训练于5万亿Token精心筛选和合成数据，ARC-C得分83.7%（10B以下最高），GSM8K 88.6%，SimpleQA 91.1%。Q4_K_M GGUF文件仅2.49 GB，可在4GB RAM设备上运行。英语推理和知识任务表现出色，但多语言和多模态能力较弱。

最佳用途：推理密集型任务、知识问答、硬件有限且英语工作负载。

代码示例：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_id = "microsoft/Phi-4-mini-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto")
messages = [{"role": "system", "content": "You are a helpful assistant focused on clear, accurate answers."}, {"role": "user", "content": "What is the difference between a list and a tuple in Python?"}]
inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
outputs = model.generate(inputs, max_new_tokens=300, temperature=0.7, do_sample=True)
response = tokenizer.decode(outputs[0][inputs.shape[-1]:], skip_special_tokens=True)
print(response)

3. Google Gemma 3 4B IT

Gemma 3 4B IT在代码和数学上表现出色，令人惊喜。其MoE架构（Gemma 3n E4B）高效利用参数。实际运行中，它在推理任务上超越许多更大模型，尤其适合需要强数学和编程能力的场景。

总之，这些小型模型证明了规模并非一切。借助高质量数据、蒸馏和先进架构，它们正在重新定义AI的可及性。