2026-06-02站内改写1 分钟阅读更新: 2026-06-12

Scikit-LLM 与传统文本分类器：何时应使用 LLM？

本文比较了三种文本分类方法：TF-IDF 结合逻辑回归、零样本 BART 以及使用 Groq LLM 的 Scikit-LLM。在一个合成客户支持数据集上，Scikit-LLM 准确率最高（87%），延迟低于 BART，特别适用于数据量小且需要深度语言理解的任务。

来源Machine Learning Mastery作者: Iván Palomares Carrascosa

近年来，大型语言模型（LLM）逐渐取代传统机器学习方法，用于解决文本分类等自然语言处理任务。然而，并非所有场景都适合 LLM——开发者需要权衡速度、准确率和成本。本文通过一个合成客户支持工单数据集，对三种文本分类方法进行了基准测试：经典 TF-IDF 与逻辑回归、基于 BART 的零样本分类、以及结合 Groq 托管的 LLM 的 Scikit-LLM。

实验使用了 50 条人工生成的客户支持消息，分为技术、计费、账户、销售和退款五个类别，每类 10 条。数据集被分层划分为训练集（35 条）和测试集（15 条），以确保各类别比例均衡。首先，TF-IDF 向量化加逻辑回归管道运行最快，仅需 0.06 秒，但准确率只有 53%。其在计费类上表现完美（精确率 1.00，召回率 1.00），但在技术类和销售类上召回率仅 0.33，显示出对复杂语言模式捕捉能力的不足。

其次，使用 Facebook 的 BART 大模型（facebook/bart-large-mnli）进行零样本分类，准确率提升至 67%，但延迟高达 32 秒——速度成为显著的瓶颈。BART 在退款和技术类上召回率达到 1.00，但在计费和销售类上召回率仅 0.33，性能不均衡。最后，Scikit-LLM 结合 Groq 上的 Llama 3.3 70B 模型，准确率达到 87%，延迟仅 2.6 秒。其各类别的 F1 分数均在 0.67 以上，退款和销售类甚至达到 1.00，表现出色。

结果清晰表明，当数据量有限且任务需要深度语言理解时，Scikit-LLM 提供了最佳平衡。它利用 LLM 的预训练世界知识，无需额外训练即可直接部署，同时保持了 scikit-learn 风格的简洁 API。通过仅几行代码，开发者就能在传统模型和现代 LLM 之间灵活切换。此外，Scikit-LLM 消除了从零开始训练大规模模型的时间和基础设施成本，使其成为小型数据集和需要上下文推理任务的极具吸引力的选择。