2026-06-01 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

基于RAG和跨模型多数投票的工作流评估ChatGPT在生物医学关联生成与验证中的协议

本文提出了一种评估ChatGPT生成疾病相关生物医学关联能力的协议。该协议概述了如何生成关联、利用生物医学本体验证生物实体以及通过文献验证关联。协议包含跨ChatGPT模型的自一致性策略以评估生成可靠性，并通过检索增强生成（RAG）结合开源大语言模型实现语义验证，从而揭示幻觉现象。

来源arXiv Computational Linguistics作者: Ahmed Abdeen Hamed, Luis M. Rocha

arXiv上发布了一项重要研究，题为《基于RAG和跨模型多数投票的工作流评估ChatGPT在生物医学关联生成与验证中的协议》。该研究由Ahmed Abdeen Hamed等人完成，旨在系统评估ChatGPT等大语言模型在生成和验证疾病中心生物医学关联方面的能力。

研究团队提出了一套完整的评估协议，该协议包括三个主要步骤：首先，利用ChatGPT生成疾病相关的生物医学关联；其次，使用生物医学本体（如基因本体、疾病本体）对生成的生物实体进行标准化验证，确保实体的准确性；最后，通过检索相关文献来验证这些关联的真实性，从而筛选出可靠的关联。

为了评估生成内容的一致性，协议引入了自一致性策略，即比较不同ChatGPT模型（如GPT-3.5、GPT-4等）在同一任务上的输出，计算其一致程度。此外，针对本体精确匹配的局限性，研究提出了基于检索增强生成（RAG）的语义验证工作流。该工作流利用开源大语言模型（如Llama、Mistral）进行语义理解，通过跨模型多数投票机制，使多个模型共同判断生成内容的真伪，从而有效识别并减少幻觉现象。

该协议的一大创新在于结合了跨模型多数投票，这不同于传统单一模型的评估方法。通过多个大语言模型的协作，可以更可靠地建立真实性的共识。该研究不仅提供了详细的工作流程，还通过一个实际用例展示了其有效性。

论文发表于《STAR Protocols》2026年第7期，并附有补充材料。这一工作为生物医学领域的大语言模型评估提供了标准化和可重复的方法论，有望推动AI在精准医疗、药物发现和知识图谱构建中的可靠应用。研究人员强调，该协议不仅适用于ChatGPT，也可推广至其他大语言模型，具有很高的通用性。