Scikit-LLM 与传统文本分类器:何时应使用 LLM?
本文比较了三种文本分类方法:TF-IDF 结合逻辑回归、零样本 BART 以及使用 Groq LLM 的 Scikit-LLM。在一个合成客户支持数据集上,Scikit-LLM 准确率最高(87%),延迟低于 BART,特别适用于数据量小且需要深度语言理解的任务。
近年来,大型语言模型(LLM)逐渐取代传统机器学习方法,用于解决文本分类等自然语言处理任务。然而,并非所有场景都适合 LLM——开发者需要权衡速度、准确率和成本。本文通过一个合成客户支持工单数据集,对三种文本分类方法进行了基准测试:经典 TF-IDF 与逻辑回归、基于 BART 的零样本分类、以及结合 Groq 托管的 LLM 的 Scikit-LLM。
实验使用了 50 条人工生成的客户支持消息,分为技术、计费、账户、销售和退款五个类别,每类 10 条。数据集被分层划分为训练集(35 条)和测试集(15 条),以确保各类别比例均衡。首先,TF-IDF 向量化加逻辑回归管道运行最快,仅需 0.06 秒,但准确率只有 53%。其在计费类上表现完美(精确率 1.00,召回率 1.00),但在技术类和销售类上召回率仅 0.33,显示出对复杂语言模式捕捉能力的不足。
其次,使用 Facebook 的 BART 大模型(facebook/bart-large-mnli)进行零样本分类,准确率提升至 67%,但延迟高达 32 秒——速度成为显著的瓶颈。BART 在退款和技术类上召回率达到 1.00,但在计费和销售类上召回率仅 0.33,性能不均衡。最后,Scikit-LLM 结合 Groq 上的 Llama 3.3 70B 模型,准确率达到 87%,延迟仅 2.6 秒。其各类别的 F1 分数均在 0.67 以上,退款和销售类甚至达到 1.00,表现出色。
结果清晰表明,当数据量有限且任务需要深度语言理解时,Scikit-LLM 提供了最佳平衡。它利用 LLM 的预训练世界知识,无需额外训练即可直接部署,同时保持了 scikit-learn 风格的简洁 API。通过仅几行代码,开发者就能在传统模型和现代 LLM 之间灵活切换。此外,Scikit-LLM 消除了从零开始训练大规模模型的时间和基础设施成本,使其成为小型数据集和需要上下文推理任务的极具吸引力的选择。