Scikit-LLM vs 従来のテキスト分類器:LLMを使うべきタイミングは?
本記事では、TF-IDF+ロジスティック回帰、ゼロショットBART、GroqのLLMを用いたScikit-LLMの3つのテキスト分類手法をベンチマークしました。合成カスタマーサポートデータセットにおいて、Scikit-LLMは最高精度(87%)を達成し、BARTよりも低レイテンシでした。少量データで深い言語理解が必要なタスクに最適です。
近年、大規模言語モデル(LLM)がテキスト分類などのタスクで従来の機械学習手法に取って代わりつつあります。しかし、すべての状況でLLMが最適とは限らず、速度、精度、コストのトレードオフを考慮する必要があります。本記事では、合成カスタマーサポートチケットデータセットを用いて、3つのテキスト分類アプローチをベンチマークしました:古典的なTF-IDFとロジスティック回帰、BARTベースのゼロショット分類、そしてGroqがホストするLLMを利用したScikit-LLMです。
実験では、技術、請求、アカウント、セールス、返金の5クラスに分類される50件の人工メッセージを使用しました。データセットは層別分割され、訓練セット35件、テストセット15件に分けられました。最初に、TF-IDFベクトル化とロジスティック回帰のパイプラインは0.06秒と最速でしたが、精度は53%にとどまりました。請求クラスでは完全な性能(適合率1.00、再現率1.00)を示したものの、技術やセールスクラスでは再現率が0.33と低く、複雑な言語パターンを捉える能力に限界がありました。
次に、FacebookのBARTモデル(facebook/bart-large-mnli)を用いたゼロショット分類では精度が67%に向上しましたが、レイテンシは32秒と非常に遅くなりました。BARTは返金と技術クラスで再現率1.00を達成しましたが、請求とセールスでは0.33と不均衡でした。最後に、Scikit-LLMとGroq上のLlama 3.3 70Bモデルを組み合わせたところ、精度87%、レイテンシ2.6秒を達成し、全クラスでF1スコア0.67以上、返金とセールスでは1.00という優れた結果を示しました。
結果は明らかです:データ量が少なく、深い言語理解が必要なタスクには、Scikit-LLMが最適なバランスを提供します。LLMの事前学習された世界知識を活用し、追加学習なしで即座にデプロイ可能です。さらに、scikit-learnライクなAPIにより、コードの変更を最小限に抑えながら、従来モデルと最新LLMを切り替えられます。Scikit-LLMは、大規模モデルをゼロから訓練する時間とインフラコストを排除し、小規模データセットと文脈推論が必要なタスクにおいて非常に魅力的な選択肢となります。