RAG対応・クロスモデル多数決ワークフローを用いたChatGPTの生物医学的関連生成と検証の評価プロトコル
本稿では、ChatGPTが疾患中心の生物医学的関連を生成する能力を評価するプロトコルを提案する。関連の生成、生物医学オントロジーを用いた生物学的エンティティの検証、文献による関連の確認方法を概説する。プロトコルは、ChatGPTモデル間での生成信頼性を評価する自己一貫性戦略を含む。オントロジーの完全一致制限に対処するため、オープンソース大規模言語モデル(LLM)を活用した検索拡張生成(RAG)によるセマンティック検証ワークフローを提供する。これにより、他のLLMが生成したコンテンツに対する真実性を確立し、ハルシネーションを露呈できる。
arXivに発表された新たな研究「RAG対応・クロスモデル多数決ワークフローを用いたChatGPTの生物医学的関連生成と検証の評価プロトコル」は、大規模言語モデル(LLM)が疾患中心の生物医学的関連をどの程度正確に生成・検証できるかを評価するための体系的なプロトコルを提案しています。著者のAhmed Abdeen Hamed氏らは、まずChatGPTを利用して疾患に関連する生物医学的関連を生成し、次に生物医学オントロジー(遺伝子オントロジー、疾患オントロジーなど)を用いてエンティティを検証し、さらに文献検索によって関連性の信頼性を確認します。
プロトコルの核となるのは、異なるChatGPTモデル(GPT-3.5、GPT-4など)間での出力の一貫性を評価する自己一貫性戦略と、複数のモデルの出力を多数決で統合するクロスモデルアプローチです。また、オントロジーの厳密な一致に頼るだけでは不十分なケースに対応するため、オープンソースLLM(Llama、Mistralなど)を活用した検索拡張生成(RAG)によるセマンティック検証ワークフローを実装。これにより、他のLLMが生成した内容の真偽を判断し、ハルシネーションを効果的に検出できるようになりました。
本研究の大きな革新点は、従来の単一モデル評価ではなく、複数のLLMによる多数決を用いて信頼性を高める点にあります。このアプローチにより、より堅牢な真実性の確立が可能となります。また、研究では実際のユースケースを通じてプロトコルの有効性を示しています。
本論文は『STAR Protocols』2026年第7号に掲載されており、補足資料も提供されています。このプロトコルは、生物医学分野におけるLLM評価の標準化と再現性を提供し、精密医療、創薬、知識グラフ構築へのAIの信頼性ある応用を促進することが期待されます。研究チームは、本プロトコルがChatGPTだけでなく他のLLMにも適用可能であり、汎用性が高いことを強調しています。