2026-06-02站内改写1 分鐘閱讀更新: 2026-06-12

Scikit-LLM 與傳統文本分類器：何時應使用 LLM？

本文比較了三種文本分類方法：TF-IDF 結合邏輯迴歸、零樣本 BART 以及使用 Groq LLM 的 Scikit-LLM。在一個合成客户支持數據集上，Scikit-LLM 準確率最高（87%），延遲低於 BART，特別適用於數據量小且需要深度語言理解的任務。

來源Machine Learning Mastery作者: Iván Palomares Carrascosa

近年來，大型語言模型（LLM）逐漸取代傳統機器學習方法，用於解決文本分類等自然語言處理任務。然而，並非所有場景都適合 LLM——開發者需要權衡速度、準確率和成本。本文通過一個合成客户支持工單數據集，對三種文本分類方法進行了基準測試：經典 TF-IDF 與邏輯迴歸、基於 BART 的零樣本分類、以及結合 Groq 託管的 LLM 的 Scikit-LLM。

實驗使用了 50 條人工生成的客户支持消息，分為技術、計費、賬户、銷售和退款五個類別，每類 10 條。數據集被分層劃分為訓練集（35 條）和測試集（15 條），以確保各類別比例均衡。首先，TF-IDF 向量化加邏輯迴歸管道運行最快，僅需 0.06 秒，但準確率只有 53%。其在計費類上表現完美（精確率 1.00，召回率 1.00），但在技術類和銷售類上召回率僅 0.33，顯示出對複雜語言模式捕捉能力的不足。

其次，使用 Facebook 的 BART 大模型（facebook/bart-large-mnli）進行零樣本分類，準確率提升至 67%，但延遲高達 32 秒——速度成為顯著的瓶頸。BART 在退款和技術類上召回率達到 1.00，但在計費和銷售類上召回率僅 0.33，性能不均衡。最後，Scikit-LLM 結合 Groq 上的 Llama 3.3 70B 模型，準確率達到 87%，延遲僅 2.6 秒。其各類別的 F1 分數均在 0.67 以上，退款和銷售類甚至達到 1.00，表現出色。

結果清晰表明，當數據量有限且任務需要深度語言理解時，Scikit-LLM 提供了最佳平衡。它利用 LLM 的預訓練世界知識，無需額外訓練即可直接部署，同時保持了 scikit-learn 風格的簡潔 API。通過僅幾行代碼，開發者就能在傳統模型和現代 LLM 之間靈活切換。此外，Scikit-LLM 消除了從零開始訓練大規模模型的時間和基礎設施成本，使其成為小型數據集和需要上下文推理任務的極具吸引力的選擇。