知識グラフ強化型ゼロショットトピック分類:複数戦略の比較研究
本研究では、記事ごとの知識グラフで強化されたゼロショットマルチラベルトピック分類フレームワークを提案し、15の大規模言語モデルと8つのデータセットで8つの手法を体系的に評価。キーワード強化分類(AK)が基本手法で最良。グラフ強化は小規模モデルには有効だが大規模モデルには逆効果で、大規模モデルは事前学習から十分な関係情報を獲得していることを示唆。自己無撞着デコーディングは性能向上なしで計算コストを約5倍に増加。
Shahana Akter氏らによる研究論文「Knowledge Graph-Enhanced Zero-Shot Topic Classification: A Multi-Strategy Comparative Study」がarXivに公開されました。この研究は、ラベル付き学習データを必要としないゼロショットマルチラベルトピック分類において、記事ごとに構築した知識グラフを用いたフレームワークを提案し、複数の戦略を比較評価しています。
ゼロショットトピック分類は、特に文書に複雑な関係情報が含まれる場合に困難な課題です。研究チームはベースフレームワークとして、記事のみ分類、キーワード強化分類(AK)、およびそれらの自己無撞着デコーディング変種の4つを設計。さらに各変種に、文書から主語-述語-目的語のトリプルを抽出するKGGen類似のパイプラインで作成した知識グラフを追加し、合計8手法を比較しました。
実験は15の異なる規模の大規模言語モデル(LLM)と8つのドメイン横断的マルチラベルデータセットで実施。結果として、ベース手法の中ではキーワード強化分類(AK)が最も優れ、15のLLMのうち6つがセンテンスエンコーダベースラインを上回りました。知識グラフの追加効果はモデルの規模に依存し、小規模LLMでは性能向上が見られた一方、大規模LLMではむしろ低下しました。これは大規模モデルが事前学習から十分な関係情報を既に獲得しているためと考えられます。また、自己無撞着デコーディングはどの実験でも性能改善をもたらさず、計算コストを約5倍に増加させました。
この研究は、ゼロショット分類における知識グラフの有効性がモデル規模に強く依存することを明らかにし、特に大規模モデルでは単純なキーワードプロンプトで十分である可能性を示唆しています。また、自己無撞着デコーディングの非効率性を指摘し、今後の研究における計算資源の最適配分に重要な示唆を与えています。