AI News HubLIVE
站内改写2 分で読了

大規模言語モデルに基づく知識グラフ推論における幻覚検出

LUCIDを提案。注意スコア、知識グラフのセマンティクスと構造情報をグラフニューラルネットワークで統合し、LLMの幻覚を検出。9つのデータセットで最先端の性能を達成。

ソースarXiv Computational Linguistics著者: Xinyan Zhu, Yaoqi Liu, Yue Gao, Huadong Ma, Cheng Yang, Chuan Shi

大規模言語モデル(LLM)を知識グラフ(KG)推論に活用する動きが急速に広がっています。KG推論は既存の事実から新しい知識を推論する技術であり、質問応答、推薦システム、意思決定支援など様々な分野で応用されています。しかし、LLMは時に幻覚(ハルシネーション)と呼ばれる、事実に反する内容を生成する問題を抱えています。KG推論においては、モデルが関連するKG情報を取得しても、不正確な出力を生成し、誤情報や信頼性の低い判断につながる可能性があります。

既存の幻覚検出手法は、主にLLMの内部状態を分析するものと、生成された内容を取得したコンテキストと照合するものの2種類に大別されます。しかし、これらの手法は知識グラフの構造情報を考慮しておらず、そのため性能に限界がありました。KGはエンティティと関係のネットワークであり、その構造内には推論の妥当性を判断するための手がかりが豊富に含まれています。

この課題に取り組むため、研究チームはLUCID(halLUcination deteCtIon for LLM-based knowleDge graph reasoning)という新しい手法を提案しました。LUCIDは、LLMベースのKG推論フレームワーク専用に設計された初の幻覚検出手法です。この手法は、LLMの注意スコア、KGのセマンティクス、および構造情報を同時に活用します。具体的には、LLMの注意機構からノードとエッジの特徴を抽出し、セマンティック類似度を計算します。その後、これらの特徴をグラフニューラルネットワーク(GNN)を用いてKGの構造と統合します。

評価のために、研究チームは手動でアノテーションされたベンチマークデータセットも構築しました。このデータセットには、さまざまなドメインのKGとLLMの推論結果が含まれており、人間の評価者が幻覚の有無をラベル付けしています。9つのデータセットを用いた実験の結果、LUCIDは15のベースライン手法と比較して最先端の性能を達成しました。これにより、LLMのKG推論における幻覚を効果的に検出できることが示されました。

この研究は、LLMを利用した知識グラフ推論システムの信頼性向上に大きく貢献します。将来、LUCIDは実際のアプリケーションに統合され、質問応答やレコメンデーション、意思決定支援など、より正確で信頼性の高いAIシステムの実現に役立つことが期待されます。