2024-07-07 09:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

大規模言語モデルにおける外部幻覚

この記事はLilian Wengによるもので、大規模言語モデル（LLM）における外部幻覚に焦点を当てています。外部幻覚とは、モデルが文脈や世界知識に基づかない虚偽のコンテンツを生成する現象です。原因として事前学習データの問題やファインチューニングによる新知識の導入、検出手法として検索拡張評価やサンプリングベースの手法、対策としてRAG、検証チェーン、サンプリング調整、ファインチューニングなどが解説されています。

ソースLilian Weng

記事インテリジェンス

エンジニア上級

要点

外部幻覚は、事前学習データや世界知識に基づかない虚偽の出力のこと。
ファインチューニングで新知識を学習すると幻覚傾向が高まる可能性がある。
検出方法としては、検索拡張評価（FActScore、SAFE）やサンプリングベースの一貫性チェックがある。
対策には、検索拡張生成、検証チェーン、サンプリング調整、ファクトゥアリティやアトリビューションのためのファインチューニングなどがある。

重要な理由

このニュースが重要なのは、外部幻覚は、事前学習データや世界知識に基づかない虚偽の出力のことためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

大規模言語モデル（LLM）における幻覚（ハルシネーション）は、通常、モデルが不正確、虚偽、一貫性のない、または無意味なコンテンツを生成することを指します。本記事の著者Lilian Wengは、特に外部幻覚に焦点を絞っています。外部幻覚とは、モデルの出力が提供された文脈や世界知識に基づかず、完全に捏造されたものである場合を指します。これに対して、文脈内幻覚は入力文脈との整合性が求められます。外部幻覚を避けるためには、LLMが事実に基づく出力を行い、知らない質問にはその旨を伝えることが重要です。

幻覚の原因としては、事前学習データの問題とファインチューニング段階での新知識の導入が挙げられます。事前学習データはインターネットから収集されるため、古い情報や誤った情報が含まれ、モデルがそれを誤って記憶する可能性があります。ファインチューニングでは、Gekhmanら（2024）の研究により、新しい知識を含む例は学習が遅く、一旦学習されると幻覚の傾向が増加することが示されています。彼らは閉じたQAデータセットを用いて、モデルが正答を生成できる確率に基づいて例を既知・未知に分類し、未知の例が学習される速度が遅く、最適な性能は既知の例を多く学習し未知の例を限定的に学習した時点で得られることを発見しました。

幻覚検出の手法には、検索拡張評価とサンプリングベースの手法があります。検索拡張評価では、外部知識ベースを用いて生成内容の真偽を検証します。例えば、FactualityPromptベンチマークはウィキペディア文書を正解とし、固有表現誤りや含意比率を測定します。FActScoreは生成文を原子的事実に分解し、知識ベースと照合して事実精度を計算します。SAFEは言語モデルをエージェントとしてGoogle検索を反復し、事実の裏付けを確認します。FacToolは標準的な事実確認フローを様々なタスクに適用します。サンプリングベースのSelfCheckGPTは、複数のランダムサンプルの出力一貫性をチェックし、外部知識ベースを必要としません。また、未知知識の較正に関する研究もあり、TruthfulQAやSelfAwareベンチマーク、モデルの不確実性推定や間接クエリを用いた手法が紹介されています。

幻覚対策としては、検索拡張生成（RAG）、行動チェーン、サンプリング調整、ファインチューニングなどがあります。RARRやFAVAは外部文書を検索し、出力を編集して帰属を強化します。Self-RAGはモデルが自己反省し、生成中に検索を決定し、検索結果を評価します。CoVe（検証チェーン）は検証質問を計画・実行し、初期回答を修正します。RECITEは回答前に情報を暗唱させる手法です。サンプリング手法では、ファクト核サンプリングが文の後半でランダム性を減らし、ITIは推論時に特定のアテンションヘッドの活性化を調整して真実性を高めます。ファインチューニングでは、トピックプレフィックスの追加や文完成損失、FLAMEによる事実性重視のアライメント、Factuality tuningが提案されています。帰属のためのファインチューニングとして、WebGPTやGopherCiteは引用を生成し、自信がない場合には回答を控える選択的予測を行います。

付録では、TruthfulQA、FactualityPrompt、SelfAware、LongFact、HaDes、FEVER、FAVABenchといった評価ベンチマークがリストアップされています。本記事は2024年7月に公開され、外部幻覚に関する包括的な概要を提供しています。