2026-06-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

基於RAG和跨模型多數投票的工作流評估ChatGPT在生物醫學關聯生成與驗證中的協議

本文提出了一種評估ChatGPT生成疾病相關生物醫學關聯能力的協議。該協議概述瞭如何生成關聯、利用生物醫學本體驗證生物實體以及通過文獻驗證關聯。協議包含跨ChatGPT模型的自一致性策略以評估生成可靠性，並通過檢索增強生成（RAG）結合開源大語言模型實現語義驗證，從而揭示幻覺現象。

來源arXiv Computational Linguistics作者: Ahmed Abdeen Hamed, Luis M. Rocha

arXiv上發佈了一項重要研究，題為《基於RAG和跨模型多數投票的工作流評估ChatGPT在生物醫學關聯生成與驗證中的協議》。該研究由Ahmed Abdeen Hamed等人完成，旨在系統評估ChatGPT等大語言模型在生成和驗證疾病中心生物醫學關聯方面的能力。

研究團隊提出了一套完整的評估協議，該協議包括三個主要步驟：首先，利用ChatGPT生成疾病相關的生物醫學關聯；其次，使用生物醫學本體（如基因本體、疾病本體）對生成的生物實體進行標準化驗證，確保實體的準確性；最後，通過檢索相關文獻來驗證這些關聯的真實性，從而篩選出可靠的關聯。

為了評估生成內容的一致性，協議引入了自一致性策略，即比較不同ChatGPT模型（如GPT-3.5、GPT-4等）在同一任務上的輸出，計算其一致程度。此外，針對本體精確匹配的侷限性，研究提出了基於檢索增強生成（RAG）的語義驗證工作流。該工作流利用開源大語言模型（如Llama、Mistral）進行語義理解，通過跨模型多數投票機制，使多個模型共同判斷生成內容的真偽，從而有效識別並減少幻覺現象。

該協議的一大創新在於結合了跨模型多數投票，這不同於傳統單一模型的評估方法。通過多個大語言模型的協作，可以更可靠地建立真實性的共識。該研究不僅提供了詳細的工作流程，還通過一個實際用例展示了其有效性。

論文發表於《STAR Protocols》2026年第7期，並附有補充材料。這一工作為生物醫學領域的大語言模型評估提供了標準化和可重複的方法論，有望推動AI在精準醫療、藥物發現和知識圖譜構建中的可靠應用。研究人員強調，該協議不僅適用於ChatGPT，也可推廣至其他大語言模型，具有很高的通用性。